Solon-embeddings-base-0.1 项目介绍
简介
Solon-embeddings-base-0.1 是一个开源的法语嵌入模型,专注于句子相似度的计算。这个模型主要用于段落检索任务,帮助提升查询的检索性能。它是以最新技术构建的法语嵌入模型之一,能够在多种文本相似度任务中实现出色的效果。
模型特点
- 语言支持:该模型支持法语和英语。
- 任务类别:主要应用于句子相似度的段落检索(Passage Retrieval)任务。
- 数据集:模型在一个名为 mMARCO-fr 的数据集上进行了验证,该数据集专注于法语的文本数据。
- 许可证:采用 MIT 开源许可证,意味着用户可以自由使用、修改和分发。
评价指标
Solon-embeddings-base-0.1 模型在多个评价指标上显示了突出的性能:
- Recall@500:90.9
- Recall@100:80.6
- Recall@10:52.5
- MAP@10:27.4
- nDCG@10:33.5
- MRR@10:27.9
这些指标揭示了模型在较大范围内准确检索相关文段的能力。
实验结果
在以下九种法语基准上,Solon-embeddings-base-0.1 进行了评估,涵盖各种文本相似度任务,如分类、重新排序(reranking)、STS:
- AmazonReviewsClassification (MTEB)
- MassiveIntentClassification (MTEB)
- MassiveScenarioClassification (MTEB)
- MTOPDomainClassification (MTEB)
- MTOPIntentClassification (MTEB)
- STS22 (MTEB)
- MiraclFRRerank (Miracl)
- OrdalieFRSTS (Ordalie)
- OrdalieFRReranking (Ordalie)
为了增强法语STS和重新排序评估的能力,创造了 OrdalieFRSTS 和 OrdalieFRReranking 基准。
性能排名
在法语文本相似度任务中,Solon-embeddings-base-0.1 的平均分为 0.7306,位列上游模型之一,具有较高的竞争力。虽然 OrdalieTech 的大型模型和其他领先模型在某些基准上或许稍显优势,但 Solon-embeddings-base-0.1 具有良好的整体平衡性和实用性。
使用说明
为了更好地提高检索性能,建议在查询前加上 "query: " 这样的前缀。对于文段内容则不需要额外的处理。
总结
Solon-embeddings-base-0.1 提供了一种强大而高效的法语句子嵌入解决方案,在多项基准测试中表现优异,适合需要处理法语文本的各种应用场景。在数据挖掘、信息检索等领域,该模型可有效提高文本处理和分析的准确性和效率。