rubert-tiny2-russian-sentiment项目介绍
项目概述
rubert-tiny2-russian-sentiment是一个针对俄语短文本情感分类的模型。该模型基于RuBERT-tiny2进行微调,可以对俄语文本进行多分类情感分析。这个项目旨在为俄语自然语言处理领域提供一个高效、准确的情感分析工具。
模型功能
该模型可以将俄语文本分为三类情感:
- 中性(neutral)
- 积极(positive)
- 消极(negative)
用户可以轻松使用这个模型来分析俄语文本的情感倾向,得到文本所属的情感类别及其概率分数。
使用方法
使用该模型非常简单。用户只需通过Transformers库的pipeline函数加载模型,然后就可以直接输入俄语文本进行情感分析。例如:
from transformers import pipeline
model = pipeline(model="seara/rubert-tiny2-russian-sentiment")
model("Привет, ты мне нравишься!")
这段代码会返回文本的情感分类结果及其概率分数。
训练数据
该模型使用了多个俄语情感分析数据集进行训练,包括:
- Kaggle俄语新闻数据集
- Linis Crowd 2015数据集
- Linis Crowd 2016数据集
- RuReviews数据集
- RuSentiment数据集
这些数据集的汇总为模型提供了丰富的训练样本,涵盖了不同领域和类型的俄语文本。
训练过程
模型的训练过程采用了以下参数:
- 最大序列长度: 512
- 批次大小: 64
- 优化器: Adam
- 学习率: 0.00001
- 权重衰减: 0
- 训练轮数: 5
数据集被划分为80%训练集、10%验证集和10%测试集。
模型性能
在测试集上,模型展现出了优秀的性能:
- 宏平均F1分数: 0.75
- 加权平均F1分数: 0.75
- 宏平均AUC-ROC: 0.9
- 加权平均AUC-ROC: 0.9
这些指标表明该模型在各种情感类别上都有稳定且出色的表现。
项目意义
rubert-tiny2-russian-sentiment项目为俄语自然语言处理领域提供了一个强大的工具。它可以帮助研究人员、开发者和企业更好地理解和分析俄语文本的情感倾向,为舆情分析、客户反馈处理等应用提供支持。该项目的开源性质也为俄语NLP社区的发展做出了贡献。