项目介绍:norbert2_sentiment_test1
项目概述
norbert2_sentiment_test1项目是一个专门用于挪威语评论的情感分析模型。它能够分析输入的挪威语句子,并判断其情感倾向是消极还是积极。该模型主要用于测试和研究,因此对处理数据的准确性和效率都非常关注。
模型描述
该情感分析模型基于挪威语评论语料库(Norwegian Review Corpus)和一个来自Hugging Face的数据集进行训练。通过自拼接的方式,把这两个数据集的内容结合在一起,以提高模型的性能。这个项目是由Simen Aabol和Marcus Dragsten共同开发的,基于norbert2模型进行了微调。
主要用途
norbert2_sentiment_test1的直接应用是对输入的挪威语句子进行情感分析。用户可以输入任何挪威文句子,模型将返回该句子是偏向消极还是积极的情感。
数据训练细节
训练及测试数据
训练数据集来自于marcuskd/reviews_binary_not4_concat,具体的信息包括数据预处理或附加筛选的文档都在网站上可以查到。
数据预处理
为处理数据,模型使用了如下的分词工具:
tokenizer = AutoTokenizer.from_pretrained("ltgoslo/norbert2")
训练参数如下:
training_args = TrainingArguments(
output_dir='./results', # 输出目录
num_train_epochs=10, # 训练的总轮数
per_device_train_batch_size=16, # 每个设备的训练批量大小
per_device_eval_batch_size=64, # 每个设备的评估批量大小
warmup_steps=500, # 学习率调度的暖步数
weight_decay=0.01, # 权重衰减的强度
logging_dir='./logs', # 日志存储目录
logging_steps=10,
)
评估
模型通过对数据集的测试部分进行评估,其结果如下:
- 准确率(Accuracy): 83.57%
- 召回率(Recall): 88.69%
- 精确率(Precision): 87.89%
- F1值(F1): 88.28%
- 总时间(秒): 94.33秒
- 每秒样本数: 31.81样本/秒
- 延迟(秒): 0.031秒
这些评估结果表明,模型在处理挪威语评论情感分析任务时表现出了良好的准确性和效率。通过这些测试结果,开发者可以根据需求进一步优化和调整模型。