项目概述
BERTimbau Large是一个为巴西葡萄牙语预训练的BERT模型,由NeuralMind公司开发。这个模型在三个下游自然语言处理任务上达到了最先进的性能:命名实体识别、句子文本相似度和识别文本蕴涵。它有两种规模可用:Base和Large版本。
模型特点
BERTimbau Large模型具有以下特点:
- 基于BERT-Large架构,包含24层,共335M参数
- 在巴西葡萄牙语语料上进行预训练
- 支持掩码语言建模等预训练任务
- 可用于提取文本嵌入表示
使用方法
研究人员和开发者可以通过Hugging Face的Transformers库轻松使用该模型:
- 可以直接加载预训练模型和分词器
- 支持掩码填充等预训练任务
- 可以提取文本的BERT嵌入表示
代码示例展示了如何使用该模型进行掩码语言建模预测和提取文本嵌入。
模型贡献
BERTimbau Large为葡萄牙语自然语言处理任务提供了强大的预训练模型,可以帮助研究人员和开发者更好地处理葡萄牙语文本。该项目为葡萄牙语NLP研究做出了重要贡献。
开源许可
该项目采用MIT许可证开源,允许用户自由使用、修改和分发。
总的来说,BERTimbau Large是一个功能强大的葡萄牙语预训练模型,为葡萄牙语自然语言处理研究和应用提供了重要工具。