piiranha-v1-detect-personal-information项目介绍
项目概述
piiranha-v1-detect-personal-information是一个强大的个人身份信息(PII)检测模型。该模型基于microsoft/mdeberta-v3-base进行微调,能够在六种语言中检测17种类型的个人身份信息。它的性能非常出色,能够捕获98.27%的PII标记,总体分类准确率高达99.44%。
主要特点
-
多语言支持:该模型支持英语、西班牙语、法语、德语、意大利语和荷兰语六种语言。
-
广泛的PII类型检测:能够识别17种不同类型的PII,包括账号、建筑号码、城市、信用卡号、出生日期、驾驶证、电子邮件、名字、姓氏、身份证、密码、社会安全号码、街道地址、税号、电话号码、用户名和邮政编码。
-
高准确率:在包含PII的约73,000个句子的测试集上,模型实现了99.44%的准确率。
-
优秀的性能指标:
- 精确率:98.48%(被分类为PII的标记中,98.48%确实是PII)
- 召回率:98.27%(正确识别了98.27%的PII标记)
- 特异性:99.84%(正确识别了99.84%的非PII标记)
模型细节
piiranha-v1使用了256个Deberta标记的上下文长度。如果文本超过这个长度,需要将其分割。模型在H100 GPU上训练,由Akash Network慷慨赞助。
性能分析
模型在不同类型的PII检测上表现各异。例如,它在检测电子邮件和密码方面表现出色,精确率和召回率都达到了100%和98%。而在识别姓氏方面,性能相对较低,F1分数为0.83。
使用场景与限制
该模型可用于协助对文本中的PII进行编辑和隐私保护。然而,用户需要自行承担使用风险,开发团队不对模型的错误预测承担责任。
训练过程
模型使用了Adam优化器,学习率为5e-05,训练批次大小为128。训练持续了5个epoch,采用了线性学习率调度器和混合精度训练。
总结
piiranha-v1-detect-personal-information项目为个人隐私保护提供了一个强大的工具。它不仅能够高效准确地识别多种类型的个人身份信息,还支持多种语言,具有广泛的应用前景。然而,用户在使用时仍需谨慎,并结合具体场景进行适当的调整和验证。