roberta-base-bne - 基于西班牙国家图书馆数据的RoBERTa语言模型

roberta-base-bne 项目介绍

项目概述

roberta-base-bne 是一种基于西班牙语的变压器架构掩码语言模型。它基于 RoBERTa 基础模型，使用西班牙国家图书馆从 2009 年到 2019 年进行的网络抓取数据进行预训练。该模型专注于填补文本中的空白（fill-mask）任务，是目前拥有最大规模的西班牙语语料库，处理后的净文本总共达 570GB。

模型描述

roberta-base-bne 模型是一个适用于西班牙语的掩码语言模型。它经过了大规模的西班牙语数据训练，数据来自西班牙国家图书馆的互联网抓取。这些数据经过清理和去重处理，确保了高质量的输入用于模型训练。模型能够在文本中预测缺失的词语或短语，非常适合填补空白等任务。此外，该模型可以进一步用于问题解答、文本分类和命名实体识别等非生成性下游任务。

使用说明

要使用 roberta-base-bne 模型，可以通过以下Python代码示例进行尝试：

from transformers import pipeline
from pprint import pprint

unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-bne')
pprint(unmasker("Gracias a los datos de la BNE se ha podido <mask> este modelo del lenguaje."))

该代码片段展示了如何使用模型填补文本中的空白。此外，用户还可以通过 PyTorch 获取给定文本的特征。