distilcamembert-base-sentiment

项目简介：DistilCamemBERT-Sentiment

DistilCamemBERT-Sentiment是一个基于DistilCamemBERT微调的法语情感分析模型。本项目的目标是通过优化模型以降低推理时间和能耗，为法语情感分析提供更高效的解决方案。

模型背景

DistilCamemBERT-Sentiment模型的开发基于DistilCamemBERT，它是CamemBERT模型的精简版。CamemBERT模型使用全法语数据集进行训练，以便更好地理解法语文本中的语义和情感表达。尽管CamemBERT在准确性上表现优异，但在应用于生产环境时，其推理时间和计算成本较高。因此，我们推出了DistilCamemBERT-Sentiment，通过减少推理时间和能源消耗，同时保持高精度。

数据集

本模型使用了两个重要的数据集进行训练和测试：Amazon的评论和Allociné的影评。Amazon评论通常较短和通俗，而Allociné的影评文字丰富且篇幅较长。通过结合这两个数据集，模型能够更全面地覆盖不同风格的文本情感表现。

数据集的规模包括204,993个训练样本和4,999个测试样本来自Amazon评论，以及235,516个训练样本和4,729个测试样本来自Allociné影评。每个评论和影评按照1到5星分类，分别代表极差到优秀的评价。

评估结果

模型在全面性和准确率的评估上表现优异。以下是该模型在不同评价等级上的准确率（"exact accuracy"）和top-2准确率：

类别	准确率 (%)	top-2准确率 (%)	样本数
全部	61.01	88.80	9,698
1星	87.21	77.17	1,905
2星	79.19	84.75	1,935
3星	77.85	78.98	1,974
4星	78.61	90.22	1,952
5星	85.96	82.92	1,932

性能对比

与其他著名的情感分析模型相比，DistilCamemBERT-Sentiment在推理速度和准确性上都表现出色。该模型的平均推理时间为95.56毫秒，比多语言BERT模型快一倍以上。

模型	推理时间 (ms)	准确率 (%)	top-2准确率 (%)
DistilCamemBERT-Sentiment	95.56	61.01	88.80
bert-base-multilingual-uncased-sentiment	187.70	54.41	82.82

在两个分类的对比下，该模型也显示出高效的推理和准确性：

模型	推理时间 (ms)	准确率 (%)
DistilCamemBERT-Sentiment	95.56	97.52
tf-allociné	329.74	95.69
barthez-sentiment-classification	197.95	94.29

如何使用DistilCamemBERT-Sentiment

使用该模型只需简单的几行代码，结合transformers库的pipeline功能：

from transformers import pipeline

analyzer = pipeline(
    task='text-classification',
    model="cmarkea/distilcamembert-base-sentiment",
    tokenizer="cmarkea/distilcamembert-base-sentiment"
)
result = analyzer(
    "J'aime me promener en forêt même si ça me donne mal aux pieds.",
    return_all_scores=True
)

print(result)