项目概述
这是一个基于DistilBERT模型针对文本情感分类任务进行微调的项目。该模型是在SST-2数据集上对DistilBERT-base-uncased模型进行了微调,主要用于英文文本的二分类情感分析。
模型性能
该模型在开发测试集上达到了91.3%的准确率,相比之下原始的BERT base uncased模型的准确率为92.7%。虽然性能略有下降,但考虑到模型的轻量化程度,这是一个相当不错的结果。
训练参数
模型采用了以下超参数进行微调:
- 学习率设置为1e-5
- 批次大小为32
- 预热步数为600步
- 最大序列长度为128
- 训练轮数为3轮
偏见问题
研究人员通过实验发现,该模型存在一定的预测偏见,特别是对于一些代表性不足的群体。例如,在处理类似"This film was filmed in COUNTRY"这样的句子时,模型对不同国家名称会产生显著不同的情感预测概率。具体表现为:
- 当国家是法国时,积极情感的预测概率为0.89
- 当国家是阿富汗时,积极情感的预测概率仅为0.08
这种差异反映出模型可能存在刻板印象和文化偏见。
使用建议
研究人员强烈建议使用者在实际应用场景中要充分评估模型的偏见风险。建议可以通过以下数据集来评估模型的偏见:
- WinoBias
- WinoGender
- Stereoset
这些数据集可以帮助使用者更好地理解和控制模型在实际应用中可能出现的偏见问题。