项目介绍:toxic-comment-model
模型描述
toxic-comment-model是一个经过微调的DistilBERT模型,专门用于对网络上的不当评论进行分类。DistilBERT是一种轻量化的BERT(双向编码器表示转换器)模型,通过去掉一些冗余部分,它能够更高效地处理自然语言任务。
使用方法
要使用这个模型,用户只需通过以下代码进行设置:
from transformers import AutoModelForSequenceClassification, AutoTokenizer, TextClassificationPipeline
model_path = "martin-ha/toxic-comment-model"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)
pipeline = TextClassificationPipeline(model=model, tokenizer=tokenizer)
print(pipeline('This is a test text.'))
通过这段代码,用户可以轻松调用模型来判断输入文本是否含有不当内容。
局限性与偏见
尽管该模型在识别网络不当评论方面有显著的表现,其中也存在一些局限性,主要体现在对特定身份小组的评论分类效果较差。例如,对于提到穆斯林的评论,模型表现不佳。当输入“穆斯林是信奉或实践伊斯兰教的群体”这样的句子时,模型可能会误判为不当言论。
以下是模型对不同身份小组的评价评分表:
身份小组 | 小组规模 | 小组AUC | BPSN AUC | BNSP AUC |
---|---|---|---|---|
Muslim | 108 | 0.689 | 0.811 | 0.88 |
Jewish | 40 | 0.749 | 0.86 | 0.825 |
Homosexual, Gay, or Lesbian | 56 | 0.795 | 0.706 | 0.972 |
Black | 84 | 0.866 | 0.758 | 0.975 |
White | 112 | 0.876 | 0.784 | 0.97 |
Female | 306 | 0.898 | 0.887 | 0.948 |
Christian | 231 | 0.904 | 0.917 | 0.93 |
Male | 225 | 0.922 | 0.862 | 0.967 |
Psychiatric or Mental Illness | 26 | 0.924 | 0.907 | 0.95 |
从表中可以看出,对于穆斯林和犹太群体的识别分数相对较低。用户在使用时需注意这一潜在偏见。
训练数据
该模型的训练数据来自于一个Kaggle竞赛,具体数据文件为train.csv
中的10%数据。相关竞赛内容涉及对不当言论存在偏见的识别。
训练过程
训练模型的过程大约需要3小时,使用P-100 GPU进行。详细的训练文档和代码可以在这里找到。
评估结果
在一个包含10000条评论的测试集中,该模型取得了94%的准确率和0.59的F1得分。这表明模型在整体上具有良好的分类能力,但在一些特定情况下仍需改进。