xlm-v-base - 多语言模型中的突破性词汇扩展

项目介绍：XLM-V (Base-sized model)

什么是XLM-V？

XLM-V是一种多语言模型，它拥有一百万个词汇表，经过对2.5TB的Common Crawl数据的训练而成，与XLM-R相似。它首次出现于由Davis Liang等人撰写的一篇关于如何克服多语言掩码语言模型中词汇瓶颈的论文中。该模型旨在通过减少在词汇重叠较少的语言之间的词块共享，来提升多语言词汇的容量，以确保每种语言都有足够的词汇覆盖。

模型描述

XLM-V与大多数大型多语言模型一样，使用一个共享的跨越100多种语言的词汇表。然而，这些模型在参数数量和深度上有所增加的同时，词汇大小基本上没有改变。词汇瓶颈限制了多语言模型的表现能力，例如XLM-R。XLM-V通过引入一种新的方法来扩大多语言词汇的规模，其词汇分配方法不仅更有语义意义，而且比XLM-R更短。借助这种改进的词汇表，XLM-V模型在自然语言推理、问答和命名实体识别等任务上，都比XLM-R取得了更优的表现。

使用方式

用户可以通过使用pipeline直接利用该模型进行掩码语言建模。例如：

from transformers import pipeline
unmasker = pipeline('fill-mask', model='facebook/xlm-v-base')
unmasker("Paris is the <mask> of France.")

# 返回示例：
# [{'score': 0.9286897778511047, 'token': 133852, 'token_str': 'capital', 'sequence': 'Paris is the capital of France.'}, ...]

这段代码展示了如何使用XLM-V模型来预测句子中缺失的单词。这种掩码语言建模的能力使得该模型非常适合于各种自然语言处理任务。

偏见、风险与限制

由于XLM-V的架构与XLM-R类似，并且训练数据相似，因此其存在的风险和局限性与XLM-R相反。建议有需求的用户参考XLM-R的模型卡，以获得更详细的信息。

参考文献

在引用该研究时，可以使用以下的BibTeX:

@ARTICLE{2023arXiv230110472L,
       author = {{Liang}, Davis and {Gonen}, Hila and {Mao}, Yuning and {Hou}, Rui and {Goyal}, Naman and {Ghazvininejad}, Marjan and {Zettlemoyer}, Luke and {Khabsa}, Madian},
        title = "{XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models}",
      journal = {arXiv e-prints},
     keywords = {Computer Science - Computation and Language, Computer Science - Machine Learning},
         year = 2023,
        month = jan,
          eid = {arXiv:2301.10472},
        pages = {arXiv:2301.10472},
          doi = {10.48550/arXiv.2301.10472},
archivePrefix = {arXiv},
       eprint = {2301.10472},
 primaryClass = {cs.CL},
       adsurl = {https://ui.adsabs.harvard.edu/abs/2023arXiv230110472L},
      adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

XLM-V为多语言模型的未来发展提供了一种新的方法，并展示了在语言表示任务中更高效的能力。这使得它在处理语言资源较少的任务上，变得更加有力。