项目介绍:UmBERTo Wikipedia Uncased v1
UmBERTo Wikipedia Uncased v1是一个基于Roberta的语言模型,专注于意大利语的大型语料库训练。该项目使用了两种创新的方法:SentencePiece和整词掩码,旨在提升模型的语言理解和生成能力。感兴趣的读者可以在Hugging Face官网上找到更多的信息。
数据集
这个模型主要是在从Wikipedia-ITA提取的小型语料库(大约7GB)上进行训练的。该语料库包含丰富的意大利语材料,用于支持模型在意大利语环境中的应用。
预训练模型
下表概述了UmBERTo Wikipedia Uncased v1模型的各种特性:
模型 | 整词掩码 | 大小写敏感 | 分词器 | 词汇表大小 | 训练次数 | 下载链接 |
---|---|---|---|---|---|---|
umberto-wikipedia-uncased-v1 | 是 | 是 | SPM | 32K | 100k | 下载 |
这个模型应用了SentencePiece技术和整词掩码,旨在提高对上下文的理解能力。
下游任务
UmBERTo Wikipedia Uncased模型在命名实体识别(NER)和词性标注(POS)等任务中表现卓越。以下是相关任务的性能评估:
命名实体识别(NER)
数据集 | F1得分 | 精确率 | 召回率 | 准确率 |
---|---|---|---|---|
ICAB-EvalITA07 | 86.240 | 85.939 | 86.544 | 98.534 |
WikiNER-ITA | 90.483 | 90.328 | 90.638 | 98.661 |
词性标注(POS)
数据集 | F1得分 | 精确率 | 召回率 | 准确率 |
---|---|---|---|---|
UD_Italian-ISDT | 98.563 | 98.508 | 98.618 | 98.717 |
UD_Italian-ParTUT | 97.810 | 97.835 | 97.784 | 98.060 |
使用方法
利用AutoModel和Autotokenizer加载UmBERTo Wikipedia Uncased模型非常简便。以下是代码示例:
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Musixmatch/umberto-wikipedia-uncased-v1")
umberto = AutoModel.from_pretrained("Musixmatch/umberto-wikipedia-uncased-v1")
encoded_input = tokenizer.encode("Umberto Eco è stato un grande scrittore")
input_ids = torch.tensor(encoded_input).unsqueeze(0) # Batch size 1
outputs = umberto(input_ids)
last_hidden_states = outputs[0] # The last hidden-state is the first element of the output
预测掩码词语的代码示例:
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="Musixmatch/umberto-wikipedia-uncased-v1",
tokenizer="Musixmatch/umberto-wikipedia-uncased-v1"
)
result = fill_mask("Umberto Eco è <mask> un grande scrittore")
最后
UmBERTo Wikipedia Uncased v1是由Musixmatch AI团队开发的智能语言模型。其精确的算法和丰富的数据集支持使其在意大利语环境中表现优异。用户可以通过Musixmatch的Github页面获取更多关于机器学习和人工智能的信息,或在推特上关注musixmatch进行实时互动。
项目创建者包括Loreto Parisi, Simone Francia和Paolo Magnani,欢迎通过相关邮箱进行联系和咨询。