项目介绍
项目名为scenario-teacher-data-hate_speech_filipino-model-xlm-roberta-base
,这个项目是针对批评性语言识别的任务而开发的一个深度学习模型。具体来说,该模型是在一个名为xlm-roberta-base
的基础模型之上进行微调,以检测和识别菲律宾语中的仇恨言论。
模型简介
此模型是xlm-roberta-base
的一个微调版本,xlm-roberta-base
是一个多语言版本的RoBERTa模型,能够处理多种不同的语言。这款模型专注于处理来自hate_speech_filipino
数据集的菲律宾语仇恨言论。
在测试数据集上的表现如下:
- 损失:1.0437
- 准确率:0.7817
- F1分数:0.7687
预期用途与局限性
虽然模型的具体用途与局限性没有详细描述,但通常此类模型用于提升社交平台或在线讨论中的内容审核效率,尤其是在涉及仇恨言论的内容上。然而,任何自动化的内容审核工具都有必要辅以人工监督,以确保其决策的准确和公正性。
模型训练与评估数据
关于模型的训练和评估数据,项目中并没有提供详细的信息。然而,hate_speech_filipino
数据集显然是在模型的训练过程中用来塑造模型识别此类言论的能力的数据集。
训练过程
训练超参数
在训练过程中使用了以下超参数:
- 学习率:5e-05
- 训练批量大小:32
- 评估批量大小:32
- 随机种子:42
- 优化器:Adam,动量参数为(0.9, 0.999),epsilon为1e-08
- 学习率调节策略:线性
- 训练周期:6969
训练结果
在整个训练过程中,模型逐步改进,其准确率和F1分数在不同的训练阶段发生变化。以下是训练过程中的一些关键节点:
训练周期 | 训练步数 | 验证损失 | 准确率 | F1分数 |
---|---|---|---|---|
0.32 | 100 | 0.5923 | 0.6966 | 0.7200 |
0.64 | 200 | 0.5214 | 0.7450 | 0.7202 |
1.28 | 400 | 0.5106 | 0.7649 | 0.7442 |
3.19 | 1000 | 0.5680 | 0.7805 | 0.7510 |
7.35 | 2300 | 1.0437 | 0.7817 | 0.7687 |
训练过程中模型性能提升的迹象显示其逐步学习并适应识别仇恨言论的任务。
框架版本
项目中使用的框架和相关工具的版本如下:
- Transformers 4.33.3
- Pytorch 2.0.1
- Datasets 2.14.5
- Tokenizers 0.13.3
这个项目为自动检测菲律宾语仇恨言论提供了一个强大工具,其多语言能力也表明在其他语言环境下也可能获得良好表现。