项目概述
这是一个基于DeBERTa-v3-base模型微调的提示注入检测模型,由Laiyer.ai团队开发。该模型专门用于识别和防范提示注入攻击,能够将输入文本分类为正常提示(0)或注入提示(1)两种类别。
模型特点
该模型在评估集上取得了优异的性能表现:
- 准确率达到99.99%
- 召回率为99.97%
- 精确率为99.98%
- F1分数为99.98%
这些数据表明模型在识别提示注入方面具有极高的可靠性。
应用场景
该模型主要应用于以下场景:
- AI系统的安全防护
- 文本输入的安全检查
- 防范恶意提示注入攻击
- LLM系统的安全性增强
使用方法
模型提供了多种使用方式:
- 通过Transformers库直接使用:
- 支持CPU和GPU环境
- 可以轻松集成到现有的Python项目中
- 使用ONNX优化版本:
- 提供更好的性能优化
- 适合生产环境部署
- 与Langchain框架集成:
- 可以无缝接入Langchain项目
- 提供完整的文档支持
技术细节
模型训练采用以下配置:
- 学习率:2e-05
- 训练批次大小:8
- 验证批次大小:8
- 训练轮数:3轮
- 优化器:Adam
- 线性学习率调度器
训练数据集包含约30%的提示注入样本和70%的正常提示样本,确保模型能够全面学习不同类型的输入特征。
社区支持
项目提供活跃的Slack社区支持:
- 可获取技术支持
- 与维护者和用户交流
- 参与LLM安全相关讨论
- 分享使用经验和建议
版本说明
该项目已有新版本发布:deberta-v3-base-prompt-injection-v2,建议用户使用最新版本以获得更好的性能和功能支持。模型采用Apache 2.0许可证,支持商业使用。