#MTEB
mteb - 多任务文本嵌入模型评估基准
MTEB文本嵌入基准测试评估自然语言处理Github开源项目
MTEB是一个开源的文本嵌入模型评估基准,涵盖多种任务类型和语言。它提供标准化的测试集、灵活的评估配置和公开排行榜。研究人员可以使用MTEB评估自定义模型,添加新任务,并进行模型性能比较,从而推动文本嵌入技术的进步。
multilingual-e5-large-pooled - 多语言支持的句子相似性与特征提取模型
特征提取开源项目模型GithubMTEBHuggingface分类multilingual-e5-large句子相似度
此项目基于多语言处理,融合Sentence Transformers技术,专注于句子相似性与特征提取。支持多语言,适用于分类、重排序、文本聚类等多种场景。模型在各种任务中表现优异,如MTEB AmazonCounterfactualClassification和MTEB BUCC中的分类与双语文本挖掘,表现出色。采用MIT许可证,具有高度使用灵活性。
bge-small-en-v1.5-quant - 高效量化嵌入模型提升自然语言处理性能
稀疏性量化深度稀疏模型Github开源项目嵌入MTEBHuggingface
bge-small-en-v1.5-quant是一种应用量化和稀疏技术的自然语言处理模型,适合资源受限环境,支持多种分类和检索任务,并在MTEB数据集上展现出坚实的表现。在AmazonPolarityClassification数据集上,实现了91.89%的准确率。其结合了量化和稀疏性技术,使得模型具备轻量化并易于在低算力设备上部署,是自然语言处理应用的理想选择。
xiaobu-embedding-v2 - 中文语义嵌入模型适用于广泛NLP任务
模型开源项目Huggingface信息检索语义相似度GithubMTEB句子嵌入文本分类
xiaobu-embedding-v2是一款中文语义嵌入模型,在多项自然语言处理任务中表现出色。该模型在文本相似度、分类、聚类、重排序和检索等方面均有良好表现,尤其在MTEB基准测试中成绩突出。这个模型可应用于问答系统、搜索优化和情感分析等多种实际场景。
gte-Qwen2-1.5B-instruct - 先进语言模型在MTEB多任务评估中的优异成绩
模型GithubQwen2开源项目Huggingface自然语言处理MTEB句子相似度模型评估
gte-Qwen2-1.5B-instruct模型在多任务基准测试(MTEB)中展现出优秀性能。该模型在分类、检索、聚类等NLP任务上表现突出,涵盖情感分析、句子相似度计算和问答等领域。在准确率、F1分数和MAP等关键指标上,gte-Qwen2-1.5B-instruct均取得了良好成绩,体现了其处理多样化语言任务的能力。
e5-base - 多语言句子嵌入模型用于文本理解和检索任务
e5-baseSentence TransformersHuggingface模型Github语义相似度MTEB开源项目文本分类
e5-base是一个句子嵌入模型,用于多语言文本理解和检索任务。该模型在MTEB基准测试中表现优秀,涵盖分类、检索、聚类和语义相似度等任务。e5-base支持多种语言,适用于问答系统、文档检索和语义搜索等应用场景。这个模型为自然语言处理应用提供了有效的工具。
NV-Embed-v2 - 多语言嵌入模型提升各类自然语言处理任务性能
检索模型聚类语义文本相似度Github分类MTEBHuggingface开源项目
NV-Embed-v2是一款多语言嵌入模型,针对多种自然语言处理任务进行了优化。该模型在文本分类、检索、聚类和语义相似度等基准测试中展现出优异表现,体现了其在跨语言和跨领域应用中的实力。通过深度学习技术,NV-Embed-v2能够生成高质量的文本表示,为各类NLP应用奠定了良好基础。
jina-embeddings-v2-base-en - 先进的嵌入模型提升多种自然语言处理任务性能
模型开源项目文本嵌入Huggingface特征提取sentence-transformersGithubMTEB句子相似度
jina-embeddings-v2-base-en是一款高性能嵌入模型,为多种自然语言处理任务生成优质语义表示。在MTEB基准测试中,该模型在文本分类、检索和聚类等任务上表现卓越。尽管名称包含'en',但实际支持多语言处理,可应用于信息检索、问答系统和文本相似度计算等场景。模型采用先进技术,在实际应用中兼具效率和准确性。
Solon-embeddings-large-0.1 - 法语嵌入模型Solon在多项自然语言处理任务中表现优异
模型信息检索法语嵌入模型Github文本相似度MTEBHuggingface开源项目自然语言处理
Solon-embeddings-large-0.1是一个法语嵌入模型,在句子相似度、聚类、重排序、检索和分类等多项自然语言处理任务中表现出色。该模型可应用于文本分类、信息检索和语义相似度计算等领域,为法语自然语言处理提供了有力支持。
acge_text_embedding - 高性能中文文本嵌入模型,提升语义相似度和检索效果
文本嵌入Huggingface模型信息检索Github语义相似度MTEB开源项目sentence-transformers
acge_text_embedding是一个针对中文自然语言处理优化的文本嵌入模型。该模型在MTEB基准测试中表现优异,尤其在语义相似度计算和信息检索任务上成绩突出。它还在文本分类等多个中文NLP任务中展现出优秀性能,为中文自然语言处理应用提供了高效的文本表示能力。
ember-v1 - 多任务自然语言处理基准测试模型
模型开源项目Huggingface特征提取transformerssentence-transformersGithubMTEB句子相似度
ember-v1是一个在MTEB基准测试中表现出色的自然语言处理模型。该模型在分类、检索、聚类和语义相似度等多种NLP任务中取得了显著成果。在Amazon评论分类和问答检索等实际应用场景中,ember-v1展现出优异性能。这个多功能模型为文本分析和信息检索提供了有力支持,是研究人员和开发者的实用NLP工具。
gte-Qwen2-7B-instruct - Qwen2架构驱动的多语言句子嵌入模型
模型GithubQwen2开源项目Huggingface自然语言处理MTEB句子相似度模型评估
gte-Qwen2-7B-instruct是基于Qwen2架构开发的多语言句子嵌入模型。在MTEB基准测试中,该模型在句子相似度、文本分类和信息检索等任务上表现出色。它支持多语言处理,能有效完成跨语言文本理解,为自然语言处理应用提供强大的语义表示能力。
gte-large-zh - 中文语义相似度与检索的卓越表现模型
模型gte-large-zhGithubsentence-transformersMTEB开源项目Huggingface语义相似度自然语言处理
gte-large-zh模型在MTEB中文基准测试中表现突出,涵盖句子相似度、文本分类、聚类、重排序和检索等多个任务。该模型在CMNLI和JDReview等数据集上的准确率超过80%,为中文自然语言处理应用提供了稳定的语义理解基础。
bge-base-en - 英语文本嵌入模型在多任务基准测试中展现优异性能
模型排序任务聚类任务分类任务GithubMTEB检索任务Huggingface开源项目
bge-base-en是一个英语文本嵌入模型,在MTEB多任务评估基准中表现优异。该模型在分类、检索、聚类等多种自然语言处理任务中均取得良好结果,尤其在问答和语义相似度任务上表现突出。作为一个多功能的文本表示工具,bge-base-en可应用于多种自然语言处理场景。
SFR-Embedding-Mistral - 基于Mistral的开源多语言文本嵌入模型
性能指标模型评估Github模型数据集MTEB机器学习开源项目Huggingface
SFR-Embedding-Mistral是基于Mistral架构的多语言文本嵌入模型,通过MTEB基准测试验证其在文本分类、语义匹配和信息检索领域的性能表现。模型在AmazonPolarity分类测试中实现95.97%准确率,可用于多语言文本向量化处理。
bge-small-zh-v1.5 - 轻量级中文文本向量化嵌入模型
GithubMTEB向量嵌入Huggingface模型训练开源项目FlagEmbedding模型语义检索
作为FlagEmbedding项目的核心组件,bge-small-zh-v1.5是一款专门面向中文场景的轻量级文本嵌入模型。该模型能将文本转化为低维向量表示,支持信息检索、文本分类和语义聚类等多种应用场景。在v1.5版本中优化了相似度计算机制,提升了零样本检索性能。模型支持主流深度学习框架调用,可无缝集成到向量数据库等实际应用中。
snowflake-arctic-embed-s - 开源语义搜索模型实现文本匹配分类与相似度分析
Huggingface开源项目模型GithubMTEB模型评估机器学习数据集分类任务
snowflake-arctic-embed-s是一个开源语义搜索模型,用于文本匹配、分类和相似度计算。模型通过MTEB基准测试评估,覆盖Amazon评论分类、问答检索和文本聚类等场景。支持多语言处理,适用于搜索引擎、推荐系统和文本分析等应用场景。
GritLM-7B - 开源大语言模型在文本生成和分类任务中展现突出表现
模型评估机器学习GithubMTEB自然语言处理GritLM-7BHuggingface开源项目模型
GritLM-7B在文本分类、检索和聚类等多项任务中表现优秀。实测数据显示,模型在AmazonPolarity分类任务达到96.52%准确率,Banking77分类达到88.47%准确率。此外,模型还集成了文本相似度计算、排序和聚类分析等功能,可应用于多样化的自然语言处理场景。
e5-small - 高效轻量的句子相似度计算模型
数据集开源项目sentence-transformersGithubMTEB机器学习性能评估Huggingface模型
e5-small是一个轻量级神经网络模型,专注于句子相似度计算。该模型在文本分类、检索和聚类等多项基准测试中表现优异。支持多语言处理,适用于需要高效文本嵌入的场景。其轻量设计在保持性能的同时减少计算资源消耗,适合各类文本相似度应用。
cde-small-v1 - 增强文本分类与信息检索能力的多任务模型
MTEB分类聚类检索Huggingface句子嵌入Github开源项目模型
该项目在多任务环境下表现优异,尤其在文本分类与检索任务中。模型在多个数据集上表现出高准确率与精度,广泛适用于商业、教育与研究领域。其卓越的性能满足了对高精确度的需求,提供了一致而可靠的结果。
e5-base-4k - 提供多任务能力的语义分析模型
RetrievalClassification评价指标开源项目模型GithubMTEBHuggingfaceClustering
e5-base-4k是一款支持多语言分类、检索和聚类的模型。其在MTEB亚马逊极性分类中表现出高准确率和F1得分,并在语义相似性分析方面具有较强性能。模型使用多种数据集,例如AmazonCounterfactualClassification和AmazonReviewsClassification,以优化不同的任务。作为一款获得MIT许可的工具,它以其广泛的应用场景成为文本处理领域的重要组成部分。
jina-embeddings-v2-base-de - 德英双语文本嵌入模型,优化跨语言相似度计算和检索
文本分类Githubsentence-transformers开源项目数据分析MTEBHuggingface模型评估模型
jina-embeddings-v2-base-de是一款针对德语和英语的双语文本嵌入模型。该模型在MTEB基准测试中表现出色,尤其在文本分类、检索和聚类任务中效果显著。模型不仅能处理德语文本,还支持德英跨语言相似度计算,适用于多语言文本检索和相似度匹配等场景。
e5-large - 句子嵌入模型应用于文本分类与检索,提升准确率
MTEB分类Sentence Transformers检索HuggingfaceGithub开源项目模型sentence-similarity
项目利用Sentence Transformers技术,提升自然语言处理任务中的句子嵌入效率,涵盖分类、检索、聚类及重排序等。该模型在多数据集上优异,尤其是在Amazon极性分类的准确率达90.05%。通过优化句子相似性,增强了在BIOSSES等任务中的相关性得分,是语义搜索和信息检索的理想之选,支持多语言文本分析。
zpoint_large_embedding_zh - 基于BERT架构的中文语义表示模型
中文嵌入Huggingface开源项目模型Githubsentence-transformers模型评估MTEB自然语言处理
zpoint_large_embedding_zh是一个中文语义嵌入模型,支持文本相似度、分类、聚类、重排序和检索等多项自然语言处理任务。该模型在AFQMC、ATEC、BQ等标准数据集上进行了评测,可应用于多种中文NLP场景。
LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse - 基于LLaMA的无监督语言模型嵌入技术
Github信息检索模型句子相似度文本分类开源项目Huggingface文本嵌入MTEB
LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse 是一种基于LLaMA模型的无监督语言模型嵌入技术。该项目通过剪枝和对比学习等方法优化模型,在文本分类、信息检索、聚类等多种NLP任务中表现优异。项目进行了广泛的评估,为自然语言处理领域提供了一种高效的文本表示学习方法。
instructor-base - Transformer架构的文本相似度模型,支持多语言文档检索和语义分析
开源项目模型GithubMTEBHuggingface模型评估文本嵌入transformers句子相似度
instructor-base是一个基于Transformer架构的文本相似度模型。该模型在MTEB基准测试中表现良好,可用于文本分类、信息检索和文档聚类等任务。它使用文本嵌入技术来捕捉句子间的语义相似度,适用于搜索优化、问答系统和文本分析。模型支持多语言处理,可作为自然语言处理的有效工具。