mmlw-roberta-large 项目介绍
mmlw-roberta-large 是一个基于 transformer 模型的句子相似度计算工具,它在多样的自然语言处理任务中表现出色。这一项目的目标是提供一个强大的工具帮助用户在处理句子特征提取和句子相似性计算时变得更加高效。该项目的开发和使用遵循 Apache 2.0 许可证。
基本信息
- 语言:波兰语
- 任务标签:
- 句子 Transformer
- 特征提取
- 句子相似度计算
- Transforme 变换模型
- MTEB(多任务评估基准)
模型亮点
mmlw-roberta-large 在多个数据集上进行了测试,并在各类任务中表现出相当不错的结果。以下是一些关键任务和其测试结果:
分类任务
-
MTEB AllegroReviews
- 准确率:47.49%
- F1 值:42.33%
-
MTEB CBD
- 准确率:69.33%
- F1 值:58.91%
-
MTEB MassiveIntentClassification
- 准确率:74.81%
- F1 值:72.03%
-
MTEB MassiveScenarioClassification
- 准确率:77.84%
- F1 值:77.73%
植分类任务
- MTEB CDSC-E
- 余弦相似度准确率:89.8%
检索任务
mmlw-roberta-large 在多个检索任务中均取得了优异的成绩,展示了其在从海量数据中获取相关信息能力方面的优势。以下是几个主要数据集的结果:
-
MTEB ArguAna-PL
- 平均精确率(AP)1-10:38.83% - 55.79%
-
MTEB DBPedia-PL
- MAP 1-1000:8.68% - 28.55%
-
MTEB FiQA-PL
- MAP 1-1000:19.87% - 34.99%
-
MTEB HotpotQA-PL
- MAP 1-1000:39.39% - 63.53%
-
MTEB MSMARCO-PL
- MAP 1-1000:19.60% - 31.66%
-
MTEB NFCorpus-PL
- MAP 1-1000:5.60% - 17.67%
总结
mmlw-roberta-large 是一个强大的自然语言处理工具,适用于多种处理和分析文本数据的场景。通过在丰富的任务和数据集上测试,该模型展示了其在特征提取、句子相似度计算以及信息检索任务中的强大能力。对于需要高准确度和效率的自然语言处理应用而言,这是一个值得考虑的选择。