项目概述
这是一个将unbiased-toxic-roberta模型转换为ONNX格式的项目。该项目的主要目标是识别和分类有毒评论,它基于三个Jigsaw挑战赛的数据进行训练,包括有毒评论分类、有毒评论中的无意偏见以及多语言有毒评论分类。这个项目由Unitary公司的Laura Hanu开发。
标签体系
该模型采用了一个综合的标签体系,由多达10名标注者根据评论的毒性程度进行评分。评分标准分为以下几个等级:
- 极度有毒:非常仇恨、攻击性或不尊重的评论
- 有毒:粗鲁、不尊重或不合理的评论
- 难以判断
- 无毒
功能特点
该项目包含了多个分类维度:
-
基础毒性分类:
- 有毒
- 严重有毒
- 淫秽
- 威胁
- 侮辱
- 身份仇恨
-
身份标签分类:
- 性别(男性/女性)
- 性取向
- 宗教信仰(基督教/犹太教/伊斯兰教)
- 种族(黑人/白人)
- 精神健康状况
技术实现
项目使用🤗 Optimum库将原始模型转换为ONNX格式,这种转换可以提供更好的部署性能。用户可以通过简单的Python代码来使用该模型:
- 使用AutoTokenizer加载分词器
- 使用ORTModelForSequenceClassification加载模型
- 通过pipeline进行文本分类
应用场景
该模型可以应用于多个领域:
- 社交媒体平台的评论审核
- 在线社区的内容管理
- 用户生成内容的自动审核
- LLM安全防护系统
社区支持
项目提供了完善的社区支持,用户可以通过Slack平台与维护者和其他用户进行交流,讨论LLM安全相关问题,获取技术支持和反馈建议。