#句子相似度
nomic-embed-text-v1.5-GGUF - Nomic Embed Text模型的文本嵌入应用概述
nomic-embed-text-v1.5开源项目模型嵌入文本Huggingface兼容性句子相似度Github动态扩展
此项目提供了nomic-embed-text-v1.5的llama.cpp兼容文件,采用GGUF格式。主要用于文本特征提取和句子相似性计算,支持最多8192个token的处理。通过YaRN和线性扩展进行上下文管理,且支持多种量化选项以优化性能和存储需求。适用于整合搜索和问答应用。
vietnamese-bi-encoder - 越南语句子相似度模型PhoBERT的应用与语义搜索支持
模型训练开源项目sentence-transformersGithub模型HuggingfacePhoBERT语义搜索句子相似度
项目依托sentence-transformers框架及PhoBERT-base-v2模型,旨在优化越南语句子相似度与聚类任务。通过结合MS Macro、SQuAD v2及Zalo 2021数据集进行训练,其在语义搜索和法律文本检索表现上有所提升。支持用户通过安装sentence-transformers库及HuggingFace的API和Widget多种方式轻松上手。
multilingual-e5-large-pooled - 多语言支持的句子相似性与特征提取模型
特征提取开源项目模型GithubMTEBHuggingface分类multilingual-e5-large句子相似度
此项目基于多语言处理,融合Sentence Transformers技术,专注于句子相似性与特征提取。支持多语言,适用于分类、重排序、文本聚类等多种场景。模型在各种任务中表现优异,如MTEB AmazonCounterfactualClassification和MTEB BUCC中的分类与双语文本挖掘,表现出色。采用MIT许可证,具有高度使用灵活性。
roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn - 西班牙语语义搜索和问答优化模型
Githubsentence-transformers句子相似度西班牙语开源项目自然语言处理语义搜索Huggingface模型
该模型是基于roberta-base-bne进行微调,专为西班牙语问答场景优化。通过将句子和段落转换为768维的密集向量空间,适用于语义搜索和文本聚类等任务。使用MS-MARCO数据集的西班牙语翻译版进行训练,尤其适合处理西班牙语问题。输入文本超过512个词片段时会自动截断,旨在提供精确的问答性能。
distiluse-base-multilingual-cased - 多语言句子嵌入模型支持语义搜索和文本相似度分析
Huggingface模型Github开源项目sentence-transformers向量嵌入多语言模型语义搜索句子相似度
distiluse-base-multilingual-cased是基于sentence-transformers的多语言句子嵌入模型,将句子和段落映射至512维向量空间。该模型支持多语言处理,适用于聚类、语义搜索和跨语言文本相似度分析。它提供高质量的句子嵌入,并可通过简洁的Python代码实现句子编码,为自然语言处理任务提供有力支持。
ember-v1 - 多任务自然语言处理基准测试模型
模型开源项目Huggingface特征提取transformerssentence-transformersGithubMTEB句子相似度
ember-v1是一个在MTEB基准测试中表现出色的自然语言处理模型。该模型在分类、检索、聚类和语义相似度等多种NLP任务中取得了显著成果。在Amazon评论分类和问答检索等实际应用场景中,ember-v1展现出优异性能。这个多功能模型为文本分析和信息检索提供了有力支持,是研究人员和开发者的实用NLP工具。
gte-Qwen2-7B-instruct - Qwen2架构驱动的多语言句子嵌入模型
模型GithubQwen2开源项目Huggingface自然语言处理MTEB句子相似度模型评估
gte-Qwen2-7B-instruct是基于Qwen2架构开发的多语言句子嵌入模型。在MTEB基准测试中,该模型在句子相似度、文本分类和信息检索等任务上表现出色。它支持多语言处理,能有效完成跨语言文本理解,为自然语言处理应用提供强大的语义表示能力。
bge-large-en-v1.5-onnx - bge-large-en-v1.5模型的ONNX转化用于文本相似性和分类
模型推理文本分类开源项目ONNXBAAI模型Huggingface句子相似度Github
项目bge-large-en-v1.5的ONNX版本,适用于文本分类和相似性搜索。使用FastEmbed工具进行推理,可实现灵活高效的文本嵌入,具备快速计算与高准确性,适合大规模文本数据分析场景。
all_miniLM_L6_v2_with_attentions - 基于MiniLM的句子相似度搜索增强模型
开源项目MiniLM句子相似度模型模型嵌入ONNXGithubHuggingfaceQdrant
基于MiniLM-L6-v2架构开发的句子相似度模型,通过整合注意力权重机制增强了文本搜索能力。模型采用ONNX格式发布,可与FastEmbed库无缝集成,支持稀疏嵌入生成,在大规模文本检索场景中表现出色。该模型针对BM42搜索进行了特别优化,能有效提升检索准确度。
multi-qa-mpnet-base-dot-v1 - 基于自监督对比学习的句子语义搜索模型
句子嵌入对比学习开源项目sentence-transformersGithub模型Huggingface语义搜索句子相似度
该模型用于提升语义搜索能力,将句子和段落映射至768维向量空间,达成高效信息检索。训练依托逾2.15亿问答对,覆盖丰富数据集与平台。模型应用CLS池化与点积相似度评估,适合处理有限文本语义匹配,同时支持sentence-transformers与HuggingFace Transformers两种使用方式,满足不同开发者需求。
jina-embeddings-v2-base-zh - 基于Transformer的中文文本向量模型,适用于语义检索和相似度计算
模型评估句子相似度feature-extractionGithub模型自然语言处理sentence-transformersHuggingface开源项目
基于Transformer架构的中文文本向量模型,支持句子相似度计算、文本分类、检索和重排序功能。在MTEB中文基准测试中完成了医疗问答、电商等领域的评估,支持中英双语处理,采用Apache-2.0开源许可证。
gte-tiny - 轻量级句向量模型实现文本相似度检索和语义匹配
Githubsentence-transformers句子相似度特征提取开源项目自然语言处理Huggingface机器学习模型
gte-tiny是一个轻量级句向量模型,用于文本相似度计算和语义匹配。模型在MTEB基准测试的文本分类、检索和聚类任务中取得良好效果,适用于各类文本处理应用场景。
msmarco-distilbert-base-dot-prod-v3 - 基于DistilBERT的向量化文本映射与相似度计算模型
Githubsentence-transformers句子相似度向量嵌入开源项目自然语言处理语义搜索Huggingface模型
msmarco-distilbert-base-dot-prod-v3是一个开源的sentence-transformer模型,通过将文本映射为768维向量实现语义表示。模型采用点积方法计算文本相似度,支持语义搜索和文本聚类功能。集成sentence-transformers框架,可快速部署并应用于实际场景。该模型在句子嵌入基准测试中表现出色,适用于多种自然语言处理任务。
gbert-large-paraphrase-cosine - GBERT-Large模型优化德语少样本文本分类
BERTGithub开源项目句子相似度SetFit德语模型自然语言处理Huggingface模型
gbert-large-paraphrase-cosine是一个基于deepset/gbert-large的德语句子转换模型,能将文本映射至1024维向量空间。该模型与SetFit配合使用,显著提升德语少样本文本分类效果。模型采用MultipleNegativesRankingLoss和余弦相似度作为损失函数,在精选的deutsche-telekom/ger-backtrans-paraphrase数据集上训练。评估显示,其在德语少样本场景中的表现优于多语言模型和Electra模型,为德语自然语言处理任务提供了有力工具。
mmlw-roberta-large - 增强自然语言处理适用性的多任务学习模型
文本分类开源项目聚类模型Huggingface特征提取sentence-transformers句子相似度Github
该开源项目mmlw-roberta-large通过多任务学习提高了自然语言处理性能,尤其在句子相似性、分类和检索等任务上表现突出。模型适用于多种数据集,如MTEB AllegroReviews和MTEB ArguAna-PL,实现了较高的准确率和F1值。使用了sentence-transformers和transformers技术,确保在大规模数据集上的优异表现。
ko-sroberta-nli - 韩语句子语义嵌入的开源模型
ko-sroberta-nli句子相似度语义搜索模型Github韩国语开源项目句子嵌入Huggingface
ko-sroberta-nli模型通过将韩语文本转换为768维向量,支持多种自然语言处理任务如聚类和语义搜索。它在KorNLI和KorSTS数据集上的评估结果值得关注,且允许在不使用sentence-transformers时结合Hugging Face Transformers进行操作,实现灵活的词嵌入应用。这款工具具备便捷的安装和操作,可高效提升韩语语义处理能力。
e5-base-unsupervised - E5-base突出文本嵌入的创新性
对比学习文本嵌入E5-base-unsupervised模型Github开源项目句子相似度自然语言处理Huggingface
探索无监督文本嵌入的新领域,E5-base-unsupervised模型通过弱监督对比预训练实现文本表示学习。模型由12层组成,嵌入尺寸为768,支持句子相似度评估等多种任务。模型专为高效的查询和段落编码设计,适合开放问答和广告信息检索等场景使用。其使用便捷,支持与Sentence Transformers结合应用,以便在不同任务中灵活调整。同时,该模型仅支持英文文本,最大支持512个令牌。访问相关文档和基准测试可进一步了解性能和训练细节。
Dmeta-embedding-zh - 提供多任务处理的句子相似度与特征提取模型
Huggingface分类特征提取开源项目模型Github句子相似度Dmeta-embedding重排序
此开源项目专注于实现多语言特征提取与文本分类的多任务模型,适用于多种MTEB数据集场景。模型实现句子相似度的有效评估,并在分类、聚类、再排序和检索任务中展现出良好的性能。采用多种数学计算方法,如余弦相似度、曼哈顿距离、欧氏距离等,确保结果的精确性与适应性。项目支持中英文文本处理,适用于学术研究及商业应用中的多种场景。
snowflake-arctic-embed-m-v1.5 - 基于Transformers的句子相似度检索模型
Huggingface检索任务特征提取开源项目模型Githubsentence-transformers句子相似度模型评估
snowflake-arctic-embed-m-v1.5是基于Transformers.js开发的句子相似度模型,主要应用于文本检索和特征提取。该模型采用sentence-transformers架构,在MTEB ArguAna等基准测试中主要评估指标达到59.53,能够提供准确的文本匹配和检索功能。
LLM2Vec-Sheared-LLaMA-mntp - 三步实现大模型高效文本编码
Github模型句子相似度开源项目无监督对比学习LLM2VecHuggingface文本编码自然语言处理
LLM2Vec项目通过简单的三步法,将仅解码的大型语言模型转换为有效的文本编码器。这三步包括启用双向注意力机制、掩蔽下一个词预测和无监督对比学习。经过微调,这个模型能够在文本嵌入、信息检索和句子相似性等自然语言处理应用中取得高效表现。
text2vec-base-chinese - 基于LERT的中文句子相似度模型
Apache-2.0开源项目模型transformersGithubHuggingface语言模型text2vec句子相似度
text2vec-base-chinese 是一个中文自然语言处理模型,通过将MacBERT替换为LERT实现改进,用于提升句子相似度计算的精确性。该项目在保持其他训练条件不变的情况下,确保了模型性能的稳定性,对需要进行高效特征提取和相似度计算的用户尤其有帮助。2024年6月25日,该项目的onnxruntime版本已发布,以支持更广泛的应用,让开发者能够更高效地构建智能应用。
multi-qa-MiniLM-L6-dot-v1 - 多语言句子相似度模型,支持语义搜索
multi-qa-MiniLM-L6-dot-v1Huggingface句子嵌入Github自监督对比学习语义搜索开源项目模型句子相似度
multi-qa-MiniLM-L6-dot-v1是一个专为语义搜索设计的句子嵌入模型,将文本转化为384维的密集向量。此模型训练于215M个问题和答案对,可处理多种数据来源。用户可通过sentence-transformers轻松加载模型进行查询和文档编码,从而计算点积相似度分数,实现相关性排序。除了基础功能外,该模型同样支持HuggingFace Transformers的复杂上下文嵌入处理,能有效提升语义搜索效率,适用于不超过512词片的文本。
bge-en-icl - 先进的多语言自然语言处理模型
分类检索Huggingfacesentence-transformersGithub开源项目模型特征提取句子相似度
bge-en-icl是一个开源的句子嵌入模型,在MTEB基准测试的多项自然语言处理任务中表现出色。该模型支持多语言处理,适用于句子相似度计算、文本分类和信息检索等应用场景。在AmazonPolarity分类任务中,bge-en-icl达到了96.98%的准确率;在FEVER检索任务中,准确率达到92.83%。此外,该模型在其他任务如ArguAna检索和Banking77分类中也取得了优异成绩。bge-en-icl为研究人员和开发者提供了一个强大的工具,用于处理和分析各种文本数据。
LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse - 基于LLaMA的无监督语言模型嵌入技术
Github信息检索模型句子相似度文本分类开源项目Huggingface文本嵌入MTEB
LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse 是一种基于LLaMA模型的无监督语言模型嵌入技术。该项目通过剪枝和对比学习等方法优化模型,在文本分类、信息检索、聚类等多种NLP任务中表现优异。项目进行了广泛的评估,为自然语言处理领域提供了一种高效的文本表示学习方法。
LLM2Vec-Meta-Llama-3-8B-Instruct-mntp-supervised - LLM2Vec-Meta-Llama-3-8B模型——文本嵌入与语义相似度的高效工具
Github开源项目句子相似度特征提取文本检索分类HuggingfaceLLM2Vec-Meta-Llama-3-supervised模型
LLM2Vec-Meta-Llama-3-8B-Instruct-mntp项目提供了创新的文本嵌入技术,支持文本分类、信息检索、重排序和聚类等多种任务。通过其监督模型,有效提升精度和召回率,如在Amazon反事实分类任务中准确率达79.94%,在ArguAna数据集的检索任务中各项指标优异。此项目在多种自然语言处理中展现出显著应用潜力,是评价文本语义相似度的关键工具。
lt-wikidata-comp-en - 高级模型,简化实体匹配与数据链接
数据清洗Github开源项目句子相似度语料库Huggingface模型训练LinkTransformer模型
LinkTransformer模型提供了一种简便的方法来实现实体匹配与链接任务,如聚类、去重和数据链接。模型使用微调后的句子转换器技术,将文本转换为稠密向量,适用于语义搜索等任务。通过安装LinkTransformer,用户可以在数据框架中轻松实现公司名称匹配,并获得相似度分数。该模型支持自定义训练,并提供详细的使用说明。
instructor-base - Transformer架构的文本相似度模型,支持多语言文档检索和语义分析
开源项目模型GithubMTEBHuggingface模型评估文本嵌入transformers句子相似度
instructor-base是一个基于Transformer架构的文本相似度模型。该模型在MTEB基准测试中表现良好,可用于文本分类、信息检索和文档聚类等任务。它使用文本嵌入技术来捕捉句子间的语义相似度,适用于搜索优化、问答系统和文本分析。模型支持多语言处理,可作为自然语言处理的有效工具。
nq-distilbert-base-v1 - 句子向量化提升语义搜索与聚类效率
Transformer句子嵌入开源项目模型评估模型Huggingfacesentence-transformers句子相似度Github
nq-distilbert-base-v1模型以sentence-transformers为基础,将句子和段落转换为768维向量,以支持聚类和语义搜索任务。通过安装sentence-transformers库可轻松使用,具备丰富的使用选项,包括通过HuggingFace Transformers实现上下文嵌入和均值池化等应用,广泛适用于文本相似性评估、内容聚类和语义检索等自然语言处理任务,提供可靠性能与灵活应用场景。
text2vec-large-chinese - 中文大规模句子相似性与特征提取模型
MacBERTHuggingfacetext2vecGithub开源项目模型特征提取transformers句子相似度
基于text2vec衍生的中文模型,采用LERT替代MacBERT,提高句子相似性和特征提取效率。支持onnxruntime,发布于2024年6月25日。