项目概述
GLiNER PII是一个专门用于识别个人身份信息(PII)的命名实体识别(NER)模型。它基于双向Transformer编码器(类BERT结构)构建,能够灵活识别多种类型的实体,在保持高性能的同时,相比大型语言模型(LLM)具有更轻量级的优势。
模型特点
- 该模型通过在
urchade/synthetic-pii-ner-mistral-v1
数据集上微调urchade/gliner_multi-v2.1
得到 - 支持多语言处理能力,包括英语、法语、德语、西班牙语、葡萄牙语和意大利语
- 采用Apache-2.0开源许可证发布
- 相比传统NER模型可识别的预定义实体类型有限的问题,GLiNER提供了更灵活的识别方案
识别能力
该模型可以识别众多类型的个人身份信息,主要包括:
- 基础个人信息:姓名、出生日期、血型等
- 证件号码:护照号、驾照号、身份证号、学生证号等
- 联系方式:电话号码、电子邮件、社交媒体账号等
- 金融信息:信用卡号、银行账号、CVV码等
- 医疗信息:医疗保险号、病历信息、用药信息等
- 其他标识:IP地址、车牌号、邮政编码、签名等
使用方法
模型使用简单直观,用户只需要:
- 导入GLiNER库
- 加载预训练模型
- 准备待识别的文本和所需识别的标签列表
- 调用predict_entities方法即可获得识别结果
实际应用
模型在各类场景下表现出色,例如可以准确识别出文本中的:
- 人名和公司名称
- 完整地址信息
- 电话号码
- 电子邮件地址
- 社会保障号码等
这使得它特别适用于数据隐私保护、文档自动化处理、信息提取等领域的应用。