universal_ner_ita项目介绍
universal_ner_ita是一个专为意大利语言设计的命名实体识别(NER)模型。这个项目的目标是通过无监督学习的方法,实现对意大利文本中实体的自动识别。它适用于各个领域,无需针对此次识别的实体进行特定训练就能发挥功效。这个特性使得它在需要对意大利语文本进行实体提取的各种应用中变得非常灵活和实用。
项目背景与优势
universal_ner_ita模型采用了无监督学习的方法,这意味着它能够在没有接触过具体实体的情况下,识别出不同的实体类型,如人名、地点、组织名称等。这种能力使得该模型在处理不同种类的文本时表现出极高的通用性。对于追求特定领域高精度指标的用户,可以通过邮件联系Michele Montebovi(montebovi.michele@gmail.com),以商讨定制化模型的可能性,以满足特定意大利语实体识别需求。
模型使用演示
项目提供了在线试用体验,用户可以通过访问以下链接直接在浏览器中测试模型:universal_ner_ita在线演示。
模型性能
对于在GPU上的推理,模型的推理时间仅需0.01秒,但在CPU上的性能会根据硬件配置的不同有所差异。这意味着模型在性能上非常高效,尤其是在拥有适当的硬件支持时。
安装与使用
若要在自己的环境中使用该模型,用户需要下载GLiNER项目,使用以下命令进行安装:
!pip install gliner
安装完成后,用户可以依据下述Python代码,尝试对一段意大利语文本进行实体识别:
from gliner import GLiNER
model = GLiNER.from_pretrained("DeepMount00/universal_ner_ita")
text = """
Il comune di Castelrosso, con codice fiscale 80012345678, ha approvato il finanziamento di 15.000€ destinati alla ristrutturazione del parco giochi cittadino, affidando l'incarico alla società 'Verde Vivo Società Cooperativa', con sede legale in Corso della Libertà 45, Verona, da completarsi entro il 30/09/2024.
"""
labels = ["comune", "codice fiscale", "importo", "società", "indirizzo", "data di completamento"]
entities = model.predict_entities(text, labels)
max_length = max(len(entity["text"]) for entity in entities)
for entity in entities:
padded_text = entity["text"].ljust(max_length)
print(f"{padded_text} => {entity['label']}")
以上代码展示了如何将文本输入模型进行实体识别,进而获取各类命名实体的标签信息。这种能力能够极大地辅助各种意大利语文本分析需求。