项目概述
Italian_NER_XXL是一个基于人工智能的初始版本模型,专注于意大利的命名实体识别。在Hugging Face上的首次发布中,此模型显示出79%的准确率。意图在通过每月更新来持续提升其性能。尽管这是一个初期版本,但该模型已经在识别多达52种不同类别的实体方面表现出色,颇具扩展性和适用性。
独特的意大利功能
该模型是意大利唯一能够识别多达52种不同类别实体的模型。与其他市场上现有的模型相比,其能够在实体识别上提供前所未有的深度和广度。这种独特性使其在意大利市场上具有明显的竞争优势。
技术与创新
模型基于BERT架构,这是自然语言处理(NLP)领域最先进的技术之一。为了确保高精度和高效率,使用最先进的技术进行训练。这一技术选择确保了模型对自然语言的深刻理解和智慧的处理能力。
可识别类别
Italian_NER_XXL模型可以识别以下类别:
- 地址(INDIRIZZO)
- 货币(VALUTA)
- 信用卡安全码(CVV)
- 银行账户号码(NUMERO_CONTO)
- 银行标识符代码(BIC)
- 国际银行账户号码(IBAN)
- 国家(STATO)
- 名字(NOME)
- 姓氏(COGNOME)
- 邮政编码(CODICE_POSTALE)
- IP地址(IP)
- 时间(ORARIO)
- URL(网址)
- 地点(LUOGO)
- 金额(IMPORTO)
- 电子邮件(EMAIL)
- 密码(PASSWORD)
- 信用卡或借记卡号(NUMERO_CARTA)
- 车牌号(TARGA_VEICOLO)
- 出生日期(DATA_NASCITA)
- 死亡日期(DATA_MORTE)
- 法人名称(RAGIONE_SOCIALE)
- 年龄(ETA)
- 日期(DATA)
- 职业(PROFESSIONE)
- 个人识别号码(PIN)
- 电话号码(NUMERO_TELEFONO)
- 文档页面(FOGLIO)
- 地块编号(PARTICELLA)
- 病历(CARTELLA_CLINICA)
- 疾病(MALATTIA)
- 医药(MEDICINA)
- 税号(CODICE_FISCALE)
- 文件编号(NUMERO_DOCUMENTO)
- 临床历史(STORIA_CLINICA)
- 律师或公证人(AVV_NOTAIO)
- 增值税号(P_IVA)
- 法律条款(LEGGE)
- 抵押利率(TASSO_MUTUO)
- 法律判决号码(N_SENTENZA)
- 注册地块(MAPPALE)
- 从属地块(SUBALTERNO)
- 财产制度(REGIME_PATRIMONIALE)
- 婚姻状况(STATO_CIVILE)
- 银行(BANCA)
- 商业品牌(BRAND)
- 支票号码(NUM_ASSEGNO_BANCARIO)
- 国际移动设备识别码(IMEI)
- 许可证编号(N_LICENZA)
- IPv6地址(IPV6_1)
- MAC地址(MAC)
- 用户代理(USER_AGENT)
- 法庭(TRIBUNALE)
- 药力(STRENGTH)
- 频率(FREQUENZA)
- 持续时间(DURATION)
- 剂量(DOSAGGIO)
- 形式(FORM)
使用方法
要使用此模型,可以通过以下Python代码进行示例应用:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("DeepMount00/Italian_NER_XXL")
model = AutoModelForTokenClassification.from_pretrained("DeepMount00/Italian_NER_XXL", ignore_mismatched_sizes=True)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = """Il commendatore Gianluigi Alberico De Laurentis-Ponti, con residenza legale in Corso Imperatrice 67, Torino, avente codice fiscale DLNGGL60B01L219P, è amministratore delegato della "De Laurentis Advanced Engineering Group S.p.A.", che si trova in Piazza Affari 32, Milano (MI); con una partita IVA di 09876543210, la società è stata recentemente incaricata di sviluppare una nuova linea di componenti aerospaziali per il progetto internazionale di esplorazione di Marte."""
ner_results = nlp(example)
print(ner_results)
总结
该模型的主要目标是提供有效且准确的多类别实体识别,这超越了传统模型的限制。作为意大利唯一能够识别如此多实体的模型,它被认为是许多应用领域的无价之宝。持续的模型发展和改进是我们的首要任务,以确保其始终提供顶尖的表现。
贡献与联系
对于那些有意对该项目做出贡献、提出改进建议或者需要针对特定需求的命名实体识别器的人士,可以随时联系Michele Montebovi(邮件地址:montebovi.michele@gmail.com)。您的意见和合作将极大地增强模型的功能和应用。我们非常感谢您的支持和参与,以便不断改善和扩展Italian_NER_XXL模型的功能。