bert-fa-base-uncased-sentiment-deepsentipers-binary

项目介绍：bert-fa-base-uncased-sentiment-deepsentipers-binary

项目背景

bert-fa-base-uncased-sentiment-deepsentipers-binary 是一个基于变压器（Transformer）的模型，专门用于理解波斯语情感。此模型的基础是 ParsBERT，它是一个针对波斯语言的预训练模型。为增强 ParsBERT 的功能，我们通过重新构建词汇库并在新的波斯语语料库上进行微调，使 ParsBERT 能够适用于更多领域。

项目目标

该项目的主要目标是对文本进行情感分类，例如对评论进行分析，以判断其情感倾向。为了实现这一目标，该项目测试了知名的三个数据集：Digikala 用户评论、SnappFood 用户评论和 DeepSentiPers 数据集。其中 DeepSentiPers 数据集采用二元和多元的分类形式。

DeepSentiPers 数据集

DeepSentiPers 是一个平衡且扩充的版本，共包含 12,138 个有关数字产品的用户评价，这些评价被标记为五种不同的类别：两个正面类（开心、满意），两个负面类（狂怒、生气）和一个中性类。因此，这个数据集既可以用于多类分类，也可以用于二元分类。在进行二元分类时，中性类别及其相关语句会从数据集中移除。

二元分类

负面（狂怒 + 生气）
正面（开心 + 满意）

多类分类

狂怒
生气
中性
开心
满意

类别	数量
狂怒	236
生气	1357
中性	2874
开心	2848
满意	2516

数据集下载

可以从以下链接下载 SentiPers 和 DeepSentiPers 数据集：

项目成果

下表总结了 ParsBERT 在不同模型和架构下获得的 F1 分数：

数据集	ParsBERT v2	ParsBERT v1	mBERT	DeepSentiPers
SentiPers (多类分类)	71.31*	71.11	-	69.33
SentiPers (二元分类)	92.42*	92.13	-	91.98

如何使用

项目提供了一个使用指南，可以通过 Colab 笔记本进行情感分析实验。

文献引用

如果在出版物中引用该项目，请使用如下 BibTeX 条目：

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}