#PhoBERT

PhoBERT - 为越南语自然语言处理带来革新

PhoBERT自然语言处理预训练语言模型越南语transformersGithub开源项目

PhoBERT是首个针对越南语的大规模预训练语言模型,基于RoBERTa架构开发。该模型在多项越南自然语言处理任务中展现出卓越性能,包括词性标注、依存句法分析、命名实体识别和自然语言推理。PhoBERT提供base和large两种版本,可通过transformers和fairseq库轻松集成使用,为越南语自然语言处理研究和应用开辟了新的可能。

vietnamese-bi-encoder - 越南语句子相似度模型PhoBERT的应用与语义搜索支持

模型训练开源项目sentence-transformersGithub模型HuggingfacePhoBERT语义搜索句子相似度

项目依托sentence-transformers框架及PhoBERT-base-v2模型，旨在优化越南语句子相似度与聚类任务。通过结合MS Macro、SQuAD v2及Zalo 2021数据集进行训练，其在语义搜索和法律文本检索表现上有所提升。支持用户通过安装sentence-transformers库及HuggingFace的API和Widget多种方式轻松上手。

vietnamese-embedding - 基于PhoBERT的越南语句嵌入模型提升多项NLP任务性能

模型PhoBERTvietnamese-embeddingGithubsentence-transformers开源项目Huggingface语义相似度自然语言处理

vietnamese-embedding是一个针对越南语优化的句子嵌入模型,基于PhoBERT架构开发。该模型通过四阶段训练,包括SimCSE初始训练、XNLI持续微调、STS基准微调和数据增强,将越南语句子编码为768维向量。在语义文本相似性等多项评估中,该模型性能优于现有越南语嵌入模型,可应用于语义搜索、文本聚类等自然语言处理任务。

phobert-large - 越南语PhoBERT模型优化实现多项NLP任务性能突破

语言模型Github开源项目RoBERTaPhoBERT越南语处理自然语言处理Huggingface模型

PhoBERT是首个公开的大规模越南语单语预训练模型，基于RoBERTa优化BERT，超越以往多语言和单语方法，显著提升词类标注、依赖解析、命名实体识别和自然语言推理等越南语NLP任务效果。

sup-SimCSE-VietNamese-phobert-base - 越南语句向量生成与对比学习模型

Github句向量编码PhoBERT模型开源项目越南语言模型SimCSEHuggingface自然语言处理

该项目开发了一个越南语句向量生成模型，通过有监督和无监督学习方法进行训练。模型整合了SimCSE和PhoBERT技术，能够准确理解和表示越南语句的语义信息。开发者可以通过sentence-transformers或transformers库快速集成使用，支持文本分词和向量编码等核心功能。模型规模达到1.35亿参数。

相关文章

Article Cover

PhoBERT: 越南语预训练语言模型的突破性进展

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号