项目介绍:Conan-embedding-v1
Conan-embedding-v1是一个基于Sentence Transformers库开发的文本嵌入模型。其主要目标是通过多样化的自然语言处理任务来有效地评估和提升语言理解的能力。该项目遵循cc-by-nc-4.0开源协议。
主要功能和数据集
Conan-embedding-v1模型涵盖了以下几种任务类型,这些任务都是在不同数据集上执行的,具体包括:
文本相似性(STS)
- MTEB AFQMC数据集:在验证集上,该模型通过余弦相似度和欧氏距离等多种方式评估,表现出了相对一致的性能,其中余弦相似度的皮尔逊相关值为56.61,斯皮尔曼相关值为60.66。
- MTEB ATEC数据集:模型同样在测试集上进行评估,结果显示其在不同的相似性度量中的分数略有变化,表明了该模型在处理这种类型语料时的稳定性。
- MTEB BQ数据集:模型在该数据集上的表现较为优秀,余弦相似度的皮尔逊相关值达到72.65,表明模型在这个特定语料库中的良好运作。
- MTEB LCQMC数据集:同样,模型通过皮尔逊和斯皮尔曼的得分展示了其在该任务上的有效性。
文本分类
- MTEB AmazonReviewsClassification(zh)数据集:在该中文评论分类任务中,模型在测试集上的准确率为50.31%。虽然这一分数不高,但F1分数为46.93,显示了该模型在类别不平衡的情况下仍具有一定的识别能力。
- MTEB IFlyTek数据集:验证集上的F1得分为39.82,这表明模型在实际应用场景中的适应能力。
- MTEB JDReview数据集:该数据集展示了较高的准确率90.32%,并且F1得分为85.94,表明了该模型在处理这种类型数据时的有效性。
聚类
- MTEB CLSClusteringP2P数据集:测试集上模型的V测量值为60.64,反映出模型在对聚类任务的理解和应用能力。
- MTEB CLSClusteringS2S数据集:在该数据集上模型表现略有下降,V测量值为52.65。
重排
- MTEB CMedQAv1/V2数据集:在这些重排任务中,模型展示了极好的表现,MAP值分别达到91.38和89.72。
- MTEB MMarcoReranking数据集:MAP得分为41.58,展示出模型在处理开放领域问答重排时的稳健性。
信息检索
在各类检索数据集中,Conan-embedding-v1模型总体表现优良,部分数据集如MTEB CovidRetrieval和MTEB DuRetrieval展示了高效的性能:
- MTEB CovidRetrieval数据集:在开发集上的MAP@10达到90.10,MRR@10为90.01。
- MTEB MMarcoRetrieval数据集:在开发集上MAP@10达到78.26,展示了模型在处理大规模文本检索时的能力。
结论
Conan-embedding-v1模型在多语言文本理解任务上表现出色,能够有效执行多种自然语言处理任务。其在文本相似性评估、文本分类、聚类及信息检索任务中均取得了不错的业绩,显示了其作为一个多用途语言模型的潜力。随着不断针对各类任务进行优化和调整,此模型可在更广泛的应用场景中得到使用。