Solon-embeddings-base-0.1 - 开源法语句子相似度模型增强段落检索

Solon-embeddings-base-0.1 项目介绍

简介

Solon-embeddings-base-0.1 是一个开源的法语嵌入模型，专注于句子相似度的计算。这个模型主要用于段落检索任务，帮助提升查询的检索性能。它是以最新技术构建的法语嵌入模型之一，能够在多种文本相似度任务中实现出色的效果。

模型特点

语言支持：该模型支持法语和英语。
任务类别：主要应用于句子相似度的段落检索（Passage Retrieval）任务。
数据集：模型在一个名为 mMARCO-fr 的数据集上进行了验证，该数据集专注于法语的文本数据。
许可证：采用 MIT 开源许可证，意味着用户可以自由使用、修改和分发。

评价指标

Solon-embeddings-base-0.1 模型在多个评价指标上显示了突出的性能：

Recall@500：90.9
Recall@100：80.6
Recall@10：52.5
MAP@10：27.4
nDCG@10：33.5
MRR@10：27.9

这些指标揭示了模型在较大范围内准确检索相关文段的能力。

实验结果

在以下九种法语基准上，Solon-embeddings-base-0.1 进行了评估，涵盖各种文本相似度任务，如分类、重新排序（reranking）、STS：

AmazonReviewsClassification (MTEB)
MassiveIntentClassification (MTEB)
MassiveScenarioClassification (MTEB)
MTOPDomainClassification (MTEB)
MTOPIntentClassification (MTEB)
STS22 (MTEB)
MiraclFRRerank (Miracl)
OrdalieFRSTS (Ordalie)
OrdalieFRReranking (Ordalie)

为了增强法语STS和重新排序评估的能力，创造了 OrdalieFRSTS 和 OrdalieFRReranking 基准。

性能排名

在法语文本相似度任务中，Solon-embeddings-base-0.1 的平均分为 0.7306，位列上游模型之一，具有较高的竞争力。虽然 OrdalieTech 的大型模型和其他领先模型在某些基准上或许稍显优势，但 Solon-embeddings-base-0.1 具有良好的整体平衡性和实用性。

使用说明

为了更好地提高检索性能，建议在查询前加上 "query: " 这样的前缀。对于文段内容则不需要额外的处理。

总结

Solon-embeddings-base-0.1 提供了一种强大而高效的法语句子嵌入解决方案，在多项基准测试中表现优异，适合需要处理法语文本的各种应用场景。在数据挖掘、信息检索等领域，该模型可有效提高文本处理和分析的准确性和效率。