#PhoBERT
PhoBERT - 为越南语自然语言处理带来革新
PhoBERT自然语言处理预训练语言模型越南语transformersGithub开源项目
PhoBERT是首个针对越南语的大规模预训练语言模型,基于RoBERTa架构开发。该模型在多项越南自然语言处理任务中展现出卓越性能,包括词性标注、依存句法分析、命名实体识别和自然语言推理。PhoBERT提供base和large两种版本,可通过transformers和fairseq库轻松集成使用,为越南语自然语言处理研究和应用开辟了新的可能。
vietnamese-bi-encoder - 越南语句子相似度模型PhoBERT的应用与语义搜索支持
模型训练开源项目sentence-transformersGithub模型HuggingfacePhoBERT语义搜索句子相似度
项目依托sentence-transformers框架及PhoBERT-base-v2模型,旨在优化越南语句子相似度与聚类任务。通过结合MS Macro、SQuAD v2及Zalo 2021数据集进行训练,其在语义搜索和法律文本检索表现上有所提升。支持用户通过安装sentence-transformers库及HuggingFace的API和Widget多种方式轻松上手。
vietnamese-embedding - 基于PhoBERT的越南语句嵌入模型提升多项NLP任务性能
模型PhoBERTvietnamese-embeddingGithubsentence-transformers开源项目Huggingface语义相似度自然语言处理
vietnamese-embedding是一个针对越南语优化的句子嵌入模型,基于PhoBERT架构开发。该模型通过四阶段训练,包括SimCSE初始训练、XNLI持续微调、STS基准微调和数据增强,将越南语句子编码为768维向量。在语义文本相似性等多项评估中,该模型性能优于现有越南语嵌入模型,可应用于语义搜索、文本聚类等自然语言处理任务。
phobert-large - 越南语PhoBERT模型优化实现多项NLP任务性能突破
语言模型Github开源项目RoBERTaPhoBERT越南语处理自然语言处理Huggingface模型
PhoBERT是首个公开的大规模越南语单语预训练模型,基于RoBERTa优化BERT,超越以往多语言和单语方法,显著提升词类标注、依赖解析、命名实体识别和自然语言推理等越南语NLP任务效果。
sup-SimCSE-VietNamese-phobert-base - 越南语句向量生成与对比学习模型
Github句向量编码PhoBERT模型开源项目越南语言模型SimCSEHuggingface自然语言处理
该项目开发了一个越南语句向量生成模型,通过有监督和无监督学习方法进行训练。模型整合了SimCSE和PhoBERT技术,能够准确理解和表示越南语句的语义信息。开发者可以通过sentence-transformers或transformers库快速集成使用,支持文本分词和向量编码等核心功能。模型规模达到1.35亿参数。