GLiNER_PII_ITA项目介绍
模型描述
GLiNER_PII_ITA项目的核心是一个专门设计用于识别和分类文本文件中个人可识别信息(PII)的模型。该模型被训练成一个通用模型,能够识别多种PII标签,特别是在行政、法律和金融领域中识别常见和相关的标签。
应用领域
该模型在分析法律文件、合同、财务记录和行政文件时特别有效。这些领域中正确识别和分类个人信息对于遵循隐私法规(如GDPR)至关重要。
支持的标签
GLiNER_PII_ITA模型经过训练,能够识别总共11706种不同的标签。以下是模型可以识别的一些标签示例:
- 客户名称:识别客户的全名。
- 出生城市:识别一个人的出生地。
- 居住地址:识别一个人的居住地址。
- 税号:识别个人或公司的税务代码。
- 文档号码:识别如护照、身份证等身份证件号码。
- 交易金额:识别与金融交易相关的金额。
- 地籍细节:识别不动产的地籍编号。
- 公司名称:识别公司的正式名称。
- IBAN:识别银行账户的IBAN号码。
- IP地址:识别与用户或设备关联的IP地址。
性能表现
模型是在一个包含大约20万个手动标注示例的庞大数据集上进行训练的,这为每种PII类型提供了丰富的学习素材。
局限性
- 数据多样性:GLiNER可能在非结构化或格式与训练集差异较大的文档中识别PII时遇到困难。
- 罕见标签:对于不常见的标签或在训练集中代表性不足的标签,模型的性能可能有所下降。
- 偏见问题:与所有机器学习模型一样,GLiNER可能受到训练数据集偏见的影响。
安装方式
要使用该模型,首先需要安装GLiNER Python库:
!pip install gliner
使用方法
下载GLiNER库后,可以导入GLiNER类。然后,通过GLiNER.from_pretrained
加载模型,并使用predict_entities
来预测实体。
from gliner import GLiNER
model = GLiNER.from_pretrained("DeepMount00/GLiNER_PII_ITA")
text = """..."""
labels = ["label1", "label2"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
通过以上代码示例,用户可以快速上手和应用模型进行PII识别,适用于多种文本分析场景。