项目简介
PhoBERT 是一款针对越南语的预训练语言模型,其名字来源于越南的著名食物“Phở”(发音为“Pho”)。这款模型在越南自然语言处理领域表现优异。
PhoBERT 项目介绍
PhoBERT 项目主要包括两个版本:“base”和“large”。这是首个公开的大规模单语语言模型,专门为越南语进行预训练。PhoBERT 的预训练方法基于 RoBERTa,它对 BERT 的预训练过程进行了优化,以提高性能的稳健性。
与之前的单语言和多语言模型相比,PhoBERT 的表现更为出色。它在以下四个越南语自然语言处理任务中取得了新纪录:
- 词性标注(Part-of-speech tagging)
- 依存句法分析(Dependency parsing)
- 命名实体识别(Named-entity recognition)
- 自然语言推理(Natural language inference)
研究成果
PhoBERT 的总体架构和实验结果可以在 EMNLP-2020 的论文中找到。这篇论文由 Dat Quoc Nguyen 和 Anh Tuan Nguyen 撰写,发表在 EMNLP 的 Findings 杂志上。
鸣谢
若使用 PhoBERT 进行研究且成果发表,或者将 PhoBERT 集成到其他软件中,请引用这篇论文。
进一步信息
如需进一步了解或提出请求,请访问 PhoBERT 的主页。