rubert-tiny2-cedr-emotion-detection项目介绍
项目背景
rubert-tiny2-cedr-emotion-detection项目是一个专注于俄语句子情感分类的模型。其核心任务是多标签分类,因为一条句子中可能同时包含多种情感。这个模型是基于cointegrated/rubert-tiny2模型进行微调的,其数据集来源于CEDR,相关研究已在Sboev等人撰写的论文“Data-Driven Model for Emotion Detection in Russian Texts”中详细描述。
数据集与训练
该项目使用的CEDR数据集,是一种专门用于俄语文本情感识别的数据集。模型的训练过程中使用了Adam优化器,进行了40次迭代(epoch),学习率设置为1e-5,批次大小(batch size)为64。具体的训练流程可以参考提供的学习笔记本文件。
评价指标
模型在测试数据集上进行了效果评估,其预测概率的质量以两种常用指标进行衡量:AUC值和F1值。
-
AUC值:用于评估模型对各个情感分类(以及无情感状态)的整体性能。不同情感类别的AUC值表现如下:
- 无情感:0.9286
- 快乐:0.9512
- 悲伤:0.9564
- 惊讶:0.8908
- 恐惧:0.8955
- 愤怒:0.7511
- 平均值(所有类别):0.8956
- 平均值(仅情感类别):0.8890
-
F1值:
- F1 micro:用于评估整体预测的精确度,结果为0.9280
- F1 macro:用于评估各个类别的均衡性能,结果为0.8348
其中,F1 micro和F1 macro分别为常用的精确率、召回率和F1分数结合的指标。
项目应用
该项目能够广泛应用于任何需要分析俄语文本情感的领域,如社交媒体分析、客户反馈审查等。通过对句子中情感的检测与分类,可以帮助用户更好地理解文本中传达的信息及其情感内涵。
演示示例
为了便于理解与使用,该项目提供了多个预制的文本示例,如:
- "Бесишь меня, падла"(表明愤怒情感)
- "Как здорово, что все мы здесь сегодня собрались"(传达快乐情感)
- "Как-то стрёмно, давай свалим отсюда?"(包含惊讶或恐惧情感)
- "Грусть-тоска меня съедает"(表达悲伤情感)
这些示例展示了该模型在现实不同情感表达场景中的应用效果。