rubert-tiny-sentiment-balanced项目介绍
rubert-tiny-sentiment-balanced是一个用于分析短俄语文本情感的模型项目。该项目基于cointegrated/rubert-tiny模型进行微调,专门用于俄语文本的情感分类任务。
项目特点
- 多分类模型:该模型将情感分为三类 - 消极、中性和积极。
- 轻量级:基于rubert-tiny模型,具有较小的模型规模。
- 专门针对俄语:特别优化用于处理俄语文本。
- 灵活的输出:可以返回情感标签、分数或概率。
使用方法
使用该模型非常简单。用户只需安装必要的库(transformers和sentencepiece),然后通过几行Python代码就可以实现文本情感分析:
- 首先导入所需的库和模型。
- 定义一个get_sentiment函数,该函数可以根据需要返回情感标签、分数或概率。
- 使用函数分析文本情感。
例如,对于输入文本"Какая гадость эта ваша заливная рыба!"(这鱼冻真恶心!),模型会返回"negative"(消极)标签,或-0.589的情感得分(范围从-1到1)。
训练过程
该模型的训练数据来自Smetanin收集的数据集。开发者对原始数据进行了以下处理:
- 将所有训练数据转换为三分类格式。
- 通过上采样和下采样平衡了不同来源的数据和各个类别的样本数量。
训练代码已公开,可以在Colab笔记本中查看。
模型性能
在平衡的测试集上,该模型在不同数据源上表现各异。例如:
- 在mokoron数据集上表现最佳,宏F1分数达到0.98。
- 在SentiRuEval2016_banks数据集上也有不错的表现,宏F1分数为0.83。
- 在一些数据集上表现相对较弱,如linis数据集,宏F1分数为0.50。
结语
rubert-tiny-sentiment-balanced项目为俄语文本情感分析提供了一个简单易用的解决方案。虽然在某些数据集上表现不够理想,但它的轻量级特性和使用便捷性使其成为处理俄语文本情感分析任务的有力工具。研究人员和开发者可以根据自己的需求进一步优化和调整这个模型。