项目介绍:deberta-v3-base_finetuned_ai4privacy_v2
项目背景
deberta-v3-base_finetuned_ai4privacy_v2 是微软开发的 DeBERTa v3 基础模型 的一种微调版本。这个特殊的模型是在世界上最大的开源隐私数据集之一——ai4privacy/pii-masking-200k 上进行微调的。
项目目标
本项目的主要目标是去除文本中可能揭示个人身份信息(PII)的内容。这样的功能在人工智能助手和大型语言模型(LLM)应用中尤为重要。模型可以识别54种敏感数据类型,并识别其中可能的229个讨论主题和案例,这些内容涵盖了商业、教育、心理学和法律等多个领域。此外,模型能够处理不同风格的互动方式,例如:日常会话、正式文件和电子邮件等。
使用说明
可以在 GitHub 上找到此模型的实现细节和研究信息。
训练数据与评估
模型使用了一组专门设计的超参数进行训练,具有很高的学习率(6e-04)和31个epoch。训练过程使用的优化器为Adam,结合特定的学习率调度器类型(cosine_with_restarts),以确保模型有效收敛。
模型性能
在评估数据集上的表现如下:
- 损失:0.0211
- 整体精确率:97.22%
- 整体召回率:97.92%
- 整体F1分数:97.57%
- 整体准确率:99.15%
此外,模型在某些特定类别的F1得分非常高,如“账户名称”、“城市名”、“公司名”、“邮件地址”等,均达到了1.0的满分,而对于一些相对模糊的数据类型如“IP地址”,其F1分数相对较低。
训练结果
在训练不同epoch时,模型的性能逐渐提升,最终在第七个epoch时达到了最佳的结果。这个过程中,不同类别的数据类型表现出了不同程度的F1分数,具体的训练细节可参考上面的评估数据。
关于框架
该项目使用了以下框架版本:
- Transformers 4.35.2
- Pytorch 2.1.0+cu118
- Datasets 2.15.0
- Tokenizers 0.15.0
总结
deberta-v3-base_finetuned_ai4privacy_v2 项目为希望在AI系统中去除隐私数据的研发人员提供了一个强大、精确且经过微调的模型,既满足了特定的隐私保护需求,又为未来的应用创新提供了广阔空间。