项目简介:bert-base-multilingual-cased-pos-english
bert-base-multilingual-cased-pos-english是一个多语言的BERT模型,专门为英语的词性标注任务进行了微调。词性标注是自然语言处理中的一个基本任务,它通过给句子中的每个单词分配一个词性标签,比如名词、动词、形容词等等。这款模型利用Penn TreeBank(Marcus等,1993)的数据进行训练,并且在这一任务上达到了96.69的F1-score,表现非常优异。
模型特点
该模型的一个主要特点是它的多语言性。虽然这次微调的目标语言为英语,但基于BERT的自然多语言特性,这为模型在多语言环境下处理词性标注任务提供了基础。除此之外,微调后的模型具备出色的效果,能够帮助用户在实际应用中快速实现词性标注。
使用方法
要使用这个模型,可以采用快如闪电的transformers库中的pipeline工具。使用时,首先需要加载模型和分词器,如下所示:
from transformers import AutoTokenizer, AutoModelForTokenClassification, TokenClassificationPipeline
model_name = "QCRI/bert-base-multilingual-cased-pos-english"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
pipeline = TokenClassificationPipeline(model=model, tokenizer=tokenizer)
outputs = pipeline("A test example")
print(outputs)
在这段代码中,AutoTokenizer
和AutoModelForTokenClassification
用于加载预训练的分词器和模型,然后通过TokenClassificationPipeline
进行具体的应用。输入一个示例句子即可获得该句子的词性标注结果。
学术引用
这个模型也在NAACL'22上发布的Analyzing Encoded Concepts in Transformer Language Models一文中用于所有与词性标注相关的实验结果。如果用户在自己的研究或应用中使用了这个模型,建议使用以下引用格式:
@inproceedings{sajjad-NAACL,
title={Analyzing Encoded Concepts in Transformer Language Models},
author={Hassan Sajjad, Nadir Durrani, Fahim Dalvi, Firoj Alam, Abdul Rafae Khan and Jia Xu},
booktitle={North American Chapter of the Association of Computational Linguistics: Human Language Technologies (NAACL)},
series={NAACL~'22},
year={2022},
address={Seattle}
}
许可证
该项目在遵循知识共享-署名-非商业-3.0(cc-by-nc-3.0)协议下发布。因此,用户可以免费使用、分享和修改模型,但不能用于商业目的。