项目概述
这是一个名为distilroberta-base-rejection-v1的模型项目,由ProtectAI.com开发。该模型主要用于检测大语言模型(LLM)的拒绝回应,能够有效识别当提示词未通过内容审核时LLM的拒绝输出。
模型特点
该模型是在distilroberta-base基础上微调得来,具有以下显著特征:
- 采用二分类方式:将输入分类为正常输出(0)和拒绝回应(1)
- 性能优异:评估结果显示准确率达98.87%,召回率98.10%,精确率92.79%
- 支持英文输入:专门针对英文文本进行优化
- 环保表现:训练过程的碳排放量仅为0.07987621556153969
应用场景
这个模型主要用于以下场景:
- 检测AI系统的拒绝回应
- 内容审核系统
- 用户输入安全性验证
- LLM输出质量监控
使用方法
该模型提供了两种便捷的使用方式:
- 通过Transformers库使用:
- 支持GPU加速
- 可以直接通过pipeline方式调用
- 最大支持512字符的输入长度
- 通过Optimum with ONNX方式使用:
- 需要安装Optimum库
- 提供了优化后的性能表现
- 使用更加灵活
训练细节
模型的训练过程经过精心设计:
- 采用多个开源数据集组合训练
- 数据比例:约10%的拒绝样本和90%的正常输出样本
- 使用Adam优化器,学习率为2e-05
- 训练周期为3轮,每批次处理16个样本
- 验证批次大小为8
- 包含500步的预热训练
社区支持
项目维护者提供了完善的社区支持:
- 提供Slack社区交流平台
- 可以获取使用帮助和技术支持
- 支持用户反馈和问题讨论
- 欢迎参与LLM安全相关讨论
许可证明
该项目采用Apache 2.0许可证,允许用户在遵守协议的情况下自由使用和修改。用户在使用时需要注意模型的局限性,特别是在处理训练集中未涉及的文本类型时可能表现不佳。