项目介绍:bert-fa-base-uncased-sentiment-deepsentipers-binary
项目背景
bert-fa-base-uncased-sentiment-deepsentipers-binary
是一个基于变压器(Transformer)的模型,专门用于理解波斯语情感。此模型的基础是 ParsBERT,它是一个针对波斯语言的预训练模型。为增强 ParsBERT 的功能,我们通过重新构建词汇库并在新的波斯语语料库上进行微调,使 ParsBERT 能够适用于更多领域。
项目目标
该项目的主要目标是对文本进行情感分类,例如对评论进行分析,以判断其情感倾向。为了实现这一目标,该项目测试了知名的三个数据集:Digikala
用户评论、SnappFood
用户评论和 DeepSentiPers
数据集。其中 DeepSentiPers
数据集采用二元和多元的分类形式。
DeepSentiPers 数据集
DeepSentiPers
是一个平衡且扩充的版本,共包含 12,138 个有关数字产品的用户评价,这些评价被标记为五种不同的类别:两个正面类(开心、满意),两个负面类(狂怒、生气)和一个中性类。因此,这个数据集既可以用于多类分类,也可以用于二元分类。在进行二元分类时,中性类别及其相关语句会从数据集中移除。
二元分类
- 负面(狂怒 + 生气)
- 正面(开心 + 满意)
多类分类
- 狂怒
- 生气
- 中性
- 开心
- 满意
类别 | 数量 |
---|---|
狂怒 | 236 |
生气 | 1357 |
中性 | 2874 |
开心 | 2848 |
满意 | 2516 |
数据集下载
可以从以下链接下载 SentiPers 和 DeepSentiPers 数据集:
项目成果
下表总结了 ParsBERT 在不同模型和架构下获得的 F1 分数:
数据集 | ParsBERT v2 | ParsBERT v1 | mBERT | DeepSentiPers |
---|---|---|---|---|
SentiPers (多类分类) | 71.31* | 71.11 | - | 69.33 |
SentiPers (二元分类) | 92.42* | 92.13 | - | 91.98 |
如何使用
项目提供了一个使用指南,可以通过 Colab 笔记本 进行情感分析实验。
文献引用
如果在出版物中引用该项目,请使用如下 BibTeX 条目:
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
提问?
如果您有任何问题,可以在 ParsBERT Issues 中提出。