项目简介:DistilCamemBERT-Sentiment
DistilCamemBERT-Sentiment是一个基于DistilCamemBERT微调的法语情感分析模型。本项目的目标是通过优化模型以降低推理时间和能耗,为法语情感分析提供更高效的解决方案。
模型背景
DistilCamemBERT-Sentiment模型的开发基于DistilCamemBERT,它是CamemBERT模型的精简版。CamemBERT模型使用全法语数据集进行训练,以便更好地理解法语文本中的语义和情感表达。尽管CamemBERT在准确性上表现优异,但在应用于生产环境时,其推理时间和计算成本较高。因此,我们推出了DistilCamemBERT-Sentiment,通过减少推理时间和能源消耗,同时保持高精度。
数据集
本模型使用了两个重要的数据集进行训练和测试:Amazon的评论和Allociné的影评。Amazon评论通常较短和通俗,而Allociné的影评文字丰富且篇幅较长。通过结合这两个数据集,模型能够更全面地覆盖不同风格的文本情感表现。
数据集的规模包括204,993个训练样本和4,999个测试样本来自Amazon评论,以及235,516个训练样本和4,729个测试样本来自Allociné影评。每个评论和影评按照1到5星分类,分别代表极差到优秀的评价。
评估结果
模型在全面性和准确率的评估上表现优异。以下是该模型在不同评价等级上的准确率("exact accuracy")和top-2准确率:
类别 | 准确率 (%) | top-2准确率 (%) | 样本数 |
---|---|---|---|
全部 | 61.01 | 88.80 | 9,698 |
1星 | 87.21 | 77.17 | 1,905 |
2星 | 79.19 | 84.75 | 1,935 |
3星 | 77.85 | 78.98 | 1,974 |
4星 | 78.61 | 90.22 | 1,952 |
5星 | 85.96 | 82.92 | 1,932 |
性能对比
与其他著名的情感分析模型相比,DistilCamemBERT-Sentiment在推理速度和准确性上都表现出色。该模型的平均推理时间为95.56毫秒,比多语言BERT模型快一倍以上。
模型 | 推理时间 (ms) | 准确率 (%) | top-2准确率 (%) |
---|---|---|---|
DistilCamemBERT-Sentiment | 95.56 | 61.01 | 88.80 |
bert-base-multilingual-uncased-sentiment | 187.70 | 54.41 | 82.82 |
在两个分类的对比下,该模型也显示出高效的推理和准确性:
模型 | 推理时间 (ms) | 准确率 (%) |
---|---|---|
DistilCamemBERT-Sentiment | 95.56 | 97.52 |
tf-allociné | 329.74 | 95.69 |
barthez-sentiment-classification | 197.95 | 94.29 |
如何使用DistilCamemBERT-Sentiment
使用该模型只需简单的几行代码,结合transformers
库的pipeline功能:
from transformers import pipeline
analyzer = pipeline(
task='text-classification',
model="cmarkea/distilcamembert-base-sentiment",
tokenizer="cmarkea/distilcamembert-base-sentiment"
)
result = analyzer(
"J'aime me promener en forêt même si ça me donne mal aux pieds.",
return_all_scores=True
)
print(result)
结论
DistilCamemBERT-Sentiment以其高效的推理能力和多样化的数据集提供了一个创新的法语情感分析解决方案。它显著减少了推理时间和计算资源的消耗,为在生产环境中使用深度学习技术分析法语情感提供了更实用的选择。