项目简介
MuRIL(Multilingual Representations for Indian Languages)是一个专为17种印度语言及其音译版本预训练的BERT模型。该项目旨在通过多语言表示来支持印度语言的自然语言处理(NLP)任务。MuRIL模型及其编码器已在多个平台(如TFHub)上发布,提供了更便捷的使用和集成方式。
模型概述
MuRIL模型采用了BERT基础架构,从头开始使用多种语料库进行预训练,包括Wikipedia、Common Crawl、PMINDIA和Dakshina。这一模型与多语言BERT模型的训练范式相似,但进行了若干优化,例如在训练过程中包括翻译和音译的片段对,同时使用较低的指数值(0.3)进行低资源语言的提升训练。
训练细节
MuRIL模型在单语段和并行段上进行预训练:
- 单语数据:使用来自Wikipedia和Common Crawl的17种印度语言的公开语料库。
- 并行数据:
- 翻译数据:使用Google NMT管道对单语语料进行翻译,输入翻译后的片段对,同时使用PMINDIA中的数据。
- 音译数据:使用IndicTrans库对Wikipedia进行音译,输入音译后的片段对,并使用Dakshina数据集。
在训练过程中,MuRIL模型通过自监督的掩码语言建模任务进行训练,实施全词掩码,最大掩码词预测数为80。该模型经过了1000K步的训练,批量大小为4096,最大序列长度为512。
使用与限制
MuRIL模型被设计用于多种印度语言的下游NLP任务。因其在音译数据上的训练,特别适合处理印度文化背景下的跨语言现象。然而,它对于其他未在预训练中涉及的语言表现不佳。
模型评估
MuRIL模型在多个下游任务上进行了微调和评估,例如在XTREME基准中的任务。通过与多语言BERT模型进行对比,MuRIL在印度语言的测试集上表现出更优异的性能。对于一些任务,MuRIL在零样本设置下取得了显著的提升,尤其在音译测试集上的表现更为突出。
以下是一些评估结果示例:
- PANX(F1):在8种印度语系语言上表现优于mBERT,平均F1值为77.60。
- UDPOS(F1):在多个低资源语言上具有更高的平均F1值75.02。
- XNLI(Accuracy):平均准确率达74.07,高于mBERT。
- 在XQUAD、MLQA和TyDiQA等任务中,MuRIL在音译后的数据集上也展示出较强的表现,特别是在F1和EM指标上有显著提升。
总结
MuRIL项目为印度语言的多语言表示提供了一个强大的工具,通过大量的数据集和预训练策略的组合,大大提升了其在低资源语言上的表现潜力。它不仅丰富了自然语言处理领域的研究资源,还为多语言模型在实际应用中的扩展提供了基础。有兴趣的开发者和研究人员可以在相关平台上查阅更多模型细节与使用指南。