#MTEB

MTEB: 大规模文本嵌入基准测试

3 个月前

MTEB 文本嵌入基准测试评估自然语言处理 Github 开源项目

3 个月前

相关项目

multilingual-e5-large-pooled

此项目基于多语言处理，融合Sentence Transformers技术，专注于句子相似性与特征提取。支持多语言，适用于分类、重排序、文本聚类等多种场景。模型在各种任务中表现优异，如MTEB AmazonCounterfactualClassification和MTEB BUCC中的分类与双语文本挖掘，表现出色。采用MIT许可证，具有高度使用灵活性。

bge-small-en-v1.5-quant

bge-small-en-v1.5-quant是一种应用量化和稀疏技术的自然语言处理模型，适合资源受限环境，支持多种分类和检索任务，并在MTEB数据集上展现出坚实的表现。在AmazonPolarityClassification数据集上，实现了91.89%的准确率。其结合了量化和稀疏性技术，使得模型具备轻量化并易于在低算力设备上部署，是自然语言处理应用的理想选择。

xiaobu-embedding-v2

xiaobu-embedding-v2是一款中文语义嵌入模型，在多项自然语言处理任务中表现出色。该模型在文本相似度、分类、聚类、重排序和检索等方面均有良好表现，尤其在MTEB基准测试中成绩突出。这个模型可应用于问答系统、搜索优化和情感分析等多种实际场景。

gte-Qwen2-1.5B-instruct

gte-Qwen2-1.5B-instruct模型在多任务基准测试(MTEB)中展现出优秀性能。该模型在分类、检索、聚类等NLP任务上表现突出,涵盖情感分析、句子相似度计算和问答等领域。在准确率、F1分数和MAP等关键指标上,gte-Qwen2-1.5B-instruct均取得了良好成绩,体现了其处理多样化语言任务的能力。

e5-base

e5-base是一个句子嵌入模型，用于多语言文本理解和检索任务。该模型在MTEB基准测试中表现优秀，涵盖分类、检索、聚类和语义相似度等任务。e5-base支持多种语言，适用于问答系统、文档检索和语义搜索等应用场景。这个模型为自然语言处理应用提供了有效的工具。

NV-Embed-v2

NV-Embed-v2是一款多语言嵌入模型，针对多种自然语言处理任务进行了优化。该模型在文本分类、检索、聚类和语义相似度等基准测试中展现出优异表现，体现了其在跨语言和跨领域应用中的实力。通过深度学习技术，NV-Embed-v2能够生成高质量的文本表示，为各类NLP应用奠定了良好基础。

jina-embeddings-v2-base-en

jina-embeddings-v2-base-en是一款高性能嵌入模型，为多种自然语言处理任务生成优质语义表示。在MTEB基准测试中，该模型在文本分类、检索和聚类等任务上表现卓越。尽管名称包含'en'，但实际支持多语言处理，可应用于信息检索、问答系统和文本相似度计算等场景。模型采用先进技术，在实际应用中兼具效率和准确性。

Solon-embeddings-large-0.1

Solon-embeddings-large-0.1是一个法语嵌入模型,在句子相似度、聚类、重排序、检索和分类等多项自然语言处理任务中表现出色。该模型可应用于文本分类、信息检索和语义相似度计算等领域,为法语自然语言处理提供了有力支持。

mteb

MTEB是一个开源的文本嵌入模型评估基准，涵盖多种任务类型和语言。它提供标准化的测试集、灵活的评估配置和公开排行榜。研究人员可以使用MTEB评估自定义模型，添加新任务，并进行模型性能比较，从而推动文本嵌入技术的进步。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com