项目概述
这是一个用于检测俄语有毒评论的分类器项目(russian_toxicity_classifier)。该项目基于BERT模型,通过对预训练的俄语对话BERT模型进行微调而来,主要用于识别和分类俄语文本中的有毒内容。
数据来源
项目使用了两个主要的数据集:
- 来自2ch.hk的俄语有毒评论数据集
- 来自ok.ru的有毒俄语评论数据集 这两个数据集经过合并、随机打乱后,按照8:1:1的比例划分为训练集、开发集和测试集。
模型性能
该模型在测试数据集上展现出了优秀的性能表现:
- 总体准确率达到97%
- 对于非有毒内容(类别0),精确率为98%,召回率为99%
- 对于有毒内容(类别1),精确率为94%,召回率为92%
- 综合F1分数达到了0.96,显示出模型具有很好的分类能力
使用方法
模型的使用非常简单直观,只需要几个步骤:
- 首先导入必要的transformers库组件
- 加载预训练的分词器和模型权重
- 对输入文本进行编码
- 运行模型进行推理
许可说明
该项目采用OpenRAIL++许可证,这意味着它既支持工业应用也支持学术研究,只要是服务于公共利益的技术开发都可以使用该模型。
技术特点
- 基于DeepPavlov的rubert-base-cased-conversational模型
- 采用BERT架构进行序列分类
- 支持批量处理和单条文本处理
- 提供了完整的模型训练指标和评估结果
应用价值
这个分类器在以下场景具有重要应用价值:
- 社交媒体平台的内容审核
- 在线论坛的评论管理
- 网络文本的毒性检测
- 俄语文本的安全性评估