项目介绍:korean_sentiment_analysis_kcelectra
项目概况
korean_sentiment_analysis_kcelectra 是一个用于韩语情感分析的模型。其基础模型是 beomi/KcELECTRA-base-v2022,并在未知的数据集上进行了微调。这个模型在评估集上的表现为:
- 损失(Loss):0.9718
- 微平均 F1 分数:70.7183
- 受试者工作特征曲线下面积(AUPRC):68.4562
- 准确率(Accuracy):0.7072
模型描述
korean_sentiment_analysis_kcelectra 是一个基于深度学习的自然语言处理模型,专注于分析和预测韩语文本的情感倾向。详细的模型信息仍有待补充。
预期用途与限制
当前对模型的预期用途和限制尚未有详细的说明。不过通常,这种情感分析模型常用于市场调研、舆情分析等领域,以帮助组织理解各类文本中的情感趋势。
训练和评估数据
有关用于训练和评估的具体数据集的详细信息尚未披露。
训练过程
训练超参数
在训练过程中,以下超参数被应用:
- 学习率:2e-05
- 训练批次大小:32
- 评估批次大小:32
- 随机数种子:42
- 梯度累积步数:8
- 总训练批次大小:256
- 优化器:Adam,beta 值=(0.9, 0.999),epsilon=1e-08
- 学习率调度类型:线性
- 学习率调度升温比例:0.1
- 训练轮次:10
训练结果
训练过程中收集的阶段性结果如下表所示:
训练损失 | 轮次 | 步数 | 验证损失 | 微平均 F1 分数 | AUPRC | 准确率 |
---|---|---|---|---|---|---|
1.0543 | 1.0 | 391 | 0.9923 | 65.3061 | 49.6906 | 0.6531 |
0.8573 | 2.0 | 782 | 0.8229 | 69.9901 | 64.4071 | 0.6999 |
0.7217 | 3.0 | 1173 | 0.7961 | 71.0600 | 67.4640 | 0.7106 |
0.6305 | 4.0 | 1564 | 0.8163 | 71.1229 | 68.5191 | 0.7112 |
0.5294 | 5.0 | 1955 | 0.8205 | 71.0150 | 68.7334 | 0.7102 |
0.4689 | 6.0 | 2346 | 0.8716 | 71.1679 | 68.7751 | 0.7117 |
0.433 | 7.0 | 2737 | 0.9086 | 70.9880 | 68.3653 | 0.7099 |
0.419 | 8.0 | 3128 | 0.9290 | 70.6734 | 68.4606 | 0.7067 |
0.3766 | 9.0 | 3519 | 0.9619 | 70.6464 | 68.5132 | 0.7065 |
0.3395 | 10.0 | 3910 | 0.9718 | 70.7183 | 68.4562 | 0.7072 |
使用的框架版本
本项目使用了以下版本的框架和工具:
- Transformers 4.25.1
- Pytorch 1.6.0
- Datasets 2.7.1
- Tokenizers 0.13.2
通过这些技术和参数的组合,korean_sentiment_analysis_kcelectra 模型在韩语情感分析任务中表现良好,具备一定的应用潜力。不过,为了更好地使用和扩展该模型,还需进一步的信息补充和优化改进。