roberta-base-bne 项目介绍
项目概述
roberta-base-bne 是一种基于西班牙语的变压器架构掩码语言模型。它基于 RoBERTa 基础模型,使用西班牙国家图书馆从 2009 年到 2019 年进行的网络抓取数据进行预训练。该模型专注于填补文本中的空白(fill-mask)任务,是目前拥有最大规模的西班牙语语料库,处理后的净文本总共达 570GB。
模型描述
roberta-base-bne 模型是一个适用于西班牙语的掩码语言模型。它经过了大规模的西班牙语数据训练,数据来自西班牙国家图书馆的互联网抓取。这些数据经过清理和去重处理,确保了高质量的输入用于模型训练。模型能够在文本中预测缺失的词语或短语,非常适合填补空白等任务。此外,该模型可以进一步用于问题解答、文本分类和命名实体识别等非生成性下游任务。
使用说明
要使用 roberta-base-bne 模型,可以通过以下Python代码示例进行尝试:
from transformers import pipeline
from pprint import pprint
unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-bne')
pprint(unmasker("Gracias a los datos de la BNE se ha podido <mask> este modelo del lenguaje."))
该代码片段展示了如何使用模型填补文本中的空白。此外,用户还可以通过 PyTorch 获取给定文本的特征。
限制与偏见
目前尚未对模型中可能存在的偏见和毒性进行系统评估。然而,由于语料是从多个网络来源抓取的,因此可能存在一些偏见。未来的研究将会在这些方面进行深入探讨和更新。
训练
训练数据
训练数据由西班牙国家图书馆每年抓取的 .es 域网站组成,数据量巨大,原始格式数据大小达 59TB。经过一系列处理操作后,包括句子分割、语言检测和去重等,最终形成了 570GB 的净西班牙语语料。
训练过程
训练采用了字节对编码(BPE)技术,将数据进行编码。模型的预训练进行了掩码语言模型训练,总训练时间为 48 小时,使用了 16 个计算节点,每个节点配备 4 个 NVIDIA V100 GPU。
评估
在训练后,该模型在多个下游任务中表现出优秀的性能,具体评估结果可以查看我们的 GitHub 仓库或相关论文。
附加信息
作者
由巴塞罗那超级计算中心 (BSC) 的文本挖掘单元 (TeMU) 负责开发。
联系信息
如需更多信息,请发送邮件至 plantl-gob-es@bsc.es。
版权与许可
本作品遵循 Apache 2.0 许可证。
资金支持
该项目得到了西班牙数字化和人工智能国家秘书处 (SEDIA) 的支持。
有关模型使用的免责声明、引用信息等更多详细信息,请查阅模型发布页。