#sentence-transformers
open-text-embeddings - 使用多源模型的OpenAI API兼容文本向量生成工具
open-text-embeddingsOpenAI APIembeddingssentence-transformersLangChainGithub开源项目
该项目创建了与OpenAI API兼容的文本向量生成端点,支持多种开源句子转换模型,包括BAAI/bge-large-en、intfloat/e5-large-v2、sentence-transformers等。提供详细的本地和云端部署指南,方便用户在多种环境下运行服务器,实现高效查询与存储。用户也可通过Colab在线测试,体验开源文本向量生成的便捷性。
vietnamese-bi-encoder - 越南语句子相似度模型PhoBERT的应用与语义搜索支持
模型训练开源项目sentence-transformersGithub模型HuggingfacePhoBERT语义搜索句子相似度
项目依托sentence-transformers框架及PhoBERT-base-v2模型,旨在优化越南语句子相似度与聚类任务。通过结合MS Macro、SQuAD v2及Zalo 2021数据集进行训练,其在语义搜索和法律文本检索表现上有所提升。支持用户通过安装sentence-transformers库及HuggingFace的API和Widget多种方式轻松上手。
all_datasets_v3_mpnet-base - 基于MPNet的高效句子和段落编码模型
开源项目句子相似性模型对比学习信息检索Huggingface句向量sentence-transformersGithub
该模型利用sentence-transformers,通过microsoft/mpnet-base预训练模型和自监督对比学习目标进行微调,将句子和段落有效编码至768维度向量空间,适用于信息检索、语义搜索和聚类任务,尤其是在句子相似度计算中有较好表现。微调时,使用了超过10亿对的句子数据,并在TPU v3-8环境下进行了920k步训练,采用AdamW优化器和对比损失。此外,在无sentence-transformers库的情况下,通过特定的池化操作仍可实现相似的编码效果,代码实现简单易用。
bge-base-en-v1.5 - 增强文本处理能力的多任务学习模型
sentence-transformers特征提取句子相似性分类句子聚类Github开源项目Huggingface模型
bge-base-en-v1.5模型通过多任务学习优化自然语言处理技术,覆盖分类、检索、聚类和重排任务。在多个MTEB数据集上表现优异,例如在亚马逊情感分类任务中达到93.39%的准确率,在AskUbuntu重排任务中MRR达到74.28%。该模型具有MIT开源许可,适用于多种英语任务,为研究人员和开发者提供有效支持。
all-MiniLM-L6-v2 - 高性能句子嵌入模型实现多种NLP任务
自然语言处理sentence-transformers语义搜索开源项目句子嵌入Github迁移学习Huggingface模型
all-MiniLM-L6-v2是一个基于sentence-transformers的句子嵌入模型。它能将文本映射至384维向量空间,在超11亿对句子上微调而成。该模型适用于语义搜索、聚类等多种NLP任务,采用对比学习方法生成高质量嵌入。通过sentence-transformers或Hugging Face Transformers库,可轻松集成到各类应用中。在多项基准测试中,all-MiniLM-L6-v2展现出优异性能。
paraphrase-multilingual-mpnet-base-v2 - 跨语言句子向量化模型支持聚类和语义检索
模型Github多语言模型开源项目文本嵌入Huggingface语义搜索sentence-transformers自然语言处理
paraphrase-multilingual-mpnet-base-v2是一个基于sentence-transformers的多语言句子嵌入模型,支持50多种语言。它将句子和段落映射为768维向量,适用于聚类和语义搜索。模型易于使用,通过pip安装即可快速集成。在Sentence Embeddings Benchmark上表现出色,采用XLMRobertaModel和平均池化层结构,可有效处理不同长度的文本输入。
roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn - 西班牙语语义搜索和问答优化模型
Githubsentence-transformers句子相似度西班牙语开源项目自然语言处理语义搜索Huggingface模型
该模型是基于roberta-base-bne进行微调,专为西班牙语问答场景优化。通过将句子和段落转换为768维的密集向量空间,适用于语义搜索和文本聚类等任务。使用MS-MARCO数据集的西班牙语翻译版进行训练,尤其适合处理西班牙语问题。输入文本超过512个词片段时会自动截断,旨在提供精确的问答性能。
acge_text_embedding - 高性能中文文本嵌入模型,提升语义相似度和检索效果
文本嵌入Huggingface模型信息检索Github语义相似度MTEB开源项目sentence-transformers
acge_text_embedding是一个针对中文自然语言处理优化的文本嵌入模型。该模型在MTEB基准测试中表现优异,尤其在语义相似度计算和信息检索任务上成绩突出。它还在文本分类等多个中文NLP任务中展现出优秀性能,为中文自然语言处理应用提供了高效的文本表示能力。
distiluse-base-multilingual-cased - 多语言句子嵌入模型支持语义搜索和文本相似度分析
Huggingface模型Github开源项目sentence-transformers向量嵌入多语言模型语义搜索句子相似度
distiluse-base-multilingual-cased是基于sentence-transformers的多语言句子嵌入模型,将句子和段落映射至512维向量空间。该模型支持多语言处理,适用于聚类、语义搜索和跨语言文本相似度分析。它提供高质量的句子嵌入,并可通过简洁的Python代码实现句子编码,为自然语言处理任务提供有力支持。
ember-v1 - 多任务自然语言处理基准测试模型
模型开源项目Huggingface特征提取transformerssentence-transformersGithubMTEB句子相似度
ember-v1是一个在MTEB基准测试中表现出色的自然语言处理模型。该模型在分类、检索、聚类和语义相似度等多种NLP任务中取得了显著成果。在Amazon评论分类和问答检索等实际应用场景中,ember-v1展现出优异性能。这个多功能模型为文本分析和信息检索提供了有力支持,是研究人员和开发者的实用NLP工具。
gte-large-zh - 中文语义相似度与检索的卓越表现模型
模型gte-large-zhGithubsentence-transformersMTEB开源项目Huggingface语义相似度自然语言处理
gte-large-zh模型在MTEB中文基准测试中表现突出,涵盖句子相似度、文本分类、聚类、重排序和检索等多个任务。该模型在CMNLI和JDReview等数据集上的准确率超过80%,为中文自然语言处理应用提供了稳定的语义理解基础。
sentence-t5-base - 基于T5架构的句子编码模型用于文本相似度分析
模型sentence-t5-baseGithub向量嵌入sentence-transformers开源项目Huggingface语义相似度自然语言处理
sentence-t5-base是一个基于T5架构的句子编码模型,能将文本映射到768维向量空间。该模型在句子相似度任务中表现优异,但语义搜索效果一般。它由TensorFlow版本转换而来,可通过sentence-transformers库轻松使用。模型仅包含T5-base的编码器部分,权重采用FP16格式存储。使用时需要sentence-transformers 2.2.0及以上版本。这个模型适用于多种自然语言处理应用场景,尤其是文本相似度分析。
nli-distilroberta-base-v2 - sentence-transformers模型实现句子向量化和语义分析
模型向量嵌入Github开源项目HuggingfaceRoBERTa自然语言处理sentence-transformers语义搜索
nli-distilroberta-base-v2是一个基于sentence-transformers的句子嵌入模型,将文本映射到768维向量空间。该模型适用于聚类、语义搜索等任务,使用简单且效果出色。它支持通过几行代码生成句子嵌入,为自然语言处理提供了有力工具。
bert-base-portuguese-cased-nli-assin-2 - 提升句子相似度与语义搜索的句子转换器
模型训练Huggingfacesentence-transformersGithub开源项目语义搜索模型特征提取句向量
模型将句子和段落转换为768维向量,用于聚类和语义搜索等任务。可通过安装sentence-transformers库或直接调用HuggingFace Transformers进行操作。采用SoftmaxLoss训练,并通过EmbeddingSimilarityEvaluator评估,结合BertModel与句子池化实现高效转换。
quora-distilbert-multilingual - 跨语言句子嵌入与语义搜索解决方案
句子相似性Githubsentence-transformers开源项目特征提取Huggingface语义搜索DistilBert模型
quora-distilbert-multilingual是一款依托sentence-transformers框架的模型,可将句子和段落转换为768维的向量,从而助力于句子聚类和语义搜索。用户可以选择使用sentence-transformers库简便地安装和使用,也可利用HuggingFace Transformers手动实现句子嵌入。该模型在Sentence Embeddings Benchmark测试中表现优异,模型结构包含DistilBert变换器和平均池化操作,为句子提供高效的表示能力。
MiniLM-L6-Keyword-Extraction - 高效句子嵌入模型,用于语义搜索与信息聚类
HuggingFace句子相似性Githubsentence-transformers开源项目对比学习Huggingface语义搜索模型
此项目通过自监督对比学习,训练出可将句子和段落转化为384维向量的模型,适用于语义搜索、信息检索和句子相似度任务。模型基于1B句子对数据集微调,利用TPU v3-8进行训练,并在Hugging Face社区活动期间开发。用户可使用sentence-transformers或HuggingFace Transformers实现多种自然语言处理应用。
stsb-distilbert-base - 语义搜索与聚类任务的句子嵌入模型
语义搜索句子嵌入开源项目机器学习模型自然语言处理模型Huggingfacesentence-transformersGithub
此模型将句子和段落转换为768维的稠密向量,适用于语义搜索和聚类任务。然而,由于其性能已不再是最优,建议选择更优质的句子嵌入模型。如需使用,可通过安装sentence-transformers库轻松实现,或使用HuggingFace Transformers进行更高级的处理,如加入注意力掩码的平均池化。尽管模型效能下降,其架构仍有参考价值。
vietnamese-embedding - 基于PhoBERT的越南语句嵌入模型提升多项NLP任务性能
模型PhoBERTvietnamese-embeddingGithubsentence-transformers开源项目Huggingface语义相似度自然语言处理
vietnamese-embedding是一个针对越南语优化的句子嵌入模型,基于PhoBERT架构开发。该模型通过四阶段训练,包括SimCSE初始训练、XNLI持续微调、STS基准微调和数据增强,将越南语句子编码为768维向量。在语义文本相似性等多项评估中,该模型性能优于现有越南语嵌入模型,可应用于语义搜索、文本聚类等自然语言处理任务。
deepset-mxbai-embed-de-large-v1 - 高性能德语句子嵌入模型
模型嵌入模型变换器模型Githubsentence-transformers特征提取开源项目Huggingface自然语言处理
deepset-mxbai-embed-de-large-v1是一个专为德语开发的句子嵌入模型。该模型基于Sentence Transformers技术,可将德语文本转换为向量表示。在语义相似度和文本分类等任务中表现优异,为德语自然语言处理应用奠定基础。支持高效特征提取,适用于多种下游任务。
robbert-2022-dutch-sentence-transformers - RobBERT模型改进的句子相似度与特征提取工具
特征提取荷兰开源项目sentence-transformersGithub模型Huggingface句子相似性语义搜索
该项目基于KU Leuven开发的RobBERT模型,提供句子相似度与特征提取功能,支持语义搜索和文本聚类等应用场景。通过翻译和微调多种Dutch语料库,模型在荷兰语环境中表现良好。用户可以通过安装sentence-transformers或使用HuggingFace Transformers来实现模型的使用,主要功能包括将句子和段落转换为768维度密集向量,为文本分析提供准确的句子嵌入。项目中使用的数据加载与优化策略有效提升了整体性能。
sentence-transformers-e5-large-v2 - 句子向量化模型实现文本相似度检索和聚类
Huggingface模型句子嵌入embaas APIGithub开源项目sentence-transformers自然语言处理语义搜索
sentence-transformers-e5-large-v2模型是intfloat/e5-large-v2的改进版本,能将文本映射至1024维向量空间。该模型在聚类和语义搜索方面表现出色,支持通过sentence-transformers库或embaas API快速集成。模型在MTEB评测中获得优异成绩,为文本嵌入和相似度计算提供了有力支持。
sentence-bert-base-italian-uncased - 意大利语句向量模型 支持文本特征提取和语义相似度计算
文本相似度Github模型自然语言处理sentence-transformers句向量模型模型训练开源项目Huggingface
该模型是基于BERT架构的意大利语sentence-transformers模型,可将文本映射为768维向量。它支持文本特征提取、语义相似度计算和文本聚类等任务,适用于意大利语自然语言处理场景。模型使用CosineSimilarityLoss训练,并提供了详细的使用示例,可通过sentence-transformers或HuggingFace Transformers库轻松集成。
jina-embeddings-v2-base-es - 双语智能文本嵌入模型 英语和西班牙语文本向量化解决方案
特征提取开源项目sentence-transformers模型文本相似度机器学习Github自然语言处理Huggingface
这是一款针对英语和西班牙语优化的文本嵌入模型。在MTEB基准测试中表现优异,可高效处理文本分类、检索和聚类等任务。模型支持跨语言文本相似度计算,适用于双语内容处理场景。基于sentence-transformers框架开发,具备出色的文本特征提取能力。
bilingual-embedding-large - 基于Transformer架构的法英双语文本向量模型
文本嵌入多语言模型开源项目sentence-transformers模型语义相似度Github自然语言处理Huggingface
bilingual-embedding-large是一个基于Transformer的法英双语句向量模型,支持聚类、重排序和检索等文本相似度任务。模型通过MTEB基准测试验证,在跨语言文本语义理解方面展现了稳定性能。该模型主要应用于法语和英语文本的语义分析与对比场景。
roberta-large-nli-stsb-mean-tokens - 基于RoBERTa的大规模语义相似度计算和文本嵌入模型
向量化模型嵌入Github自然语言处理Huggingface开源项目模型语义相似度sentence-transformers
这是一个基于RoBERTa的sentence-transformers模型,可将文本映射至1024维向量空间。它支持句子相似度计算、文本聚类和语义搜索等任务,并提供简便的API接口。该模型可通过sentence-transformers或HuggingFace Transformers库使用,便于获取文本嵌入。然而,由于性能已过时,建议采用更新的预训练模型替代。
bert-base-nli-stsb-mean-tokens - 句子嵌入与语义搜索的基础模型
变形金刚HuggingfaceBERT模型开源项目模型句子嵌入Githubsentence-transformers句子相似性
此模型能将句子和段落映射为768维向量,适用于分类和语义搜索。但由于其生成的嵌入质量不佳,已被弃用。建议使用最新的模型以提升效果。通过安装sentence-transformers库或使用HuggingFace Transformers,都能实现向量转换功能。
stsb-bert-tiny-openvino - 基于BERT的轻量级句子相似度和语义搜索模型
开源项目语义搜索深度学习sentence-transformers模型向量编码Github自然语言处理Huggingface
stsb-bert-tiny-openvino是一个轻量级的自然语言处理模型,基于sentence-transformers框架开发。模型将文本映射为128维向量,可用于文本相似度分析、聚类和语义检索。支持sentence-transformers和HuggingFace两种调用方式,配备完整的使用示例和文档。通过CosineSimilarityLoss训练优化,在保持高效处理能力的同时确保了模型的轻量化。
Semantic-Textual-Relatedness-Spanish - 基于Sentence-Transformers的西班牙语语义关联分析模型
Github语言模型HuggingfaceSemEval文本相关性开源项目模型语义相似度sentence-transformers
基于sentence-transformers框架开发的西班牙语语义关联分析模型,可将文本映射至256维向量空间,实现文本聚类和语义搜索功能。模型采用Transformer架构与CosineSimilarity损失函数,在SemEval-2024评测中获得0.677的Spearman相关系数。
dunzhang-stella_en_400M_v5 - 基于MTEB的英文语义匹配模型支持分类检索与聚类功能
模型评估机器学习GithubHuggingfacemteb开源项目transformers模型sentence-transformers
Stella_en_400M_v5是一个基于MTEB基准的英文语义匹配模型。在亚马逊商品评论分类任务中准确率达97.19%,同时支持文本分类、语义相似度计算、信息检索和文本聚类等应用场景。该模型在ArguAna检索任务中MAP@10达到56.21%,在ArxivClustering聚类任务中V-measure达到55.15%
sbert-all-MiniLM-L6-with-pooler - 基于MiniLM的384维句子向量化模型
ONNX特征提取Github向量嵌入语义搜索Huggingface开源项目模型sentence-transformers
sbert-all-MiniLM-L6-with-pooler基于sentence-transformers框架开发,将文本映射为384维向量表示。该模型在10亿对句子数据集上完成训练,可应用于文本聚类和语义搜索等场景。模型通过Hugging Face Optimum实现,支持便捷的特征提取功能。
multi-qa-mpnet-base-dot-v1 - 基于自监督对比学习的句子语义搜索模型
句子嵌入对比学习开源项目sentence-transformersGithub模型Huggingface语义搜索句子相似度
该模型用于提升语义搜索能力,将句子和段落映射至768维向量空间,达成高效信息检索。训练依托逾2.15亿问答对,覆盖丰富数据集与平台。模型应用CLS池化与点积相似度评估,适合处理有限文本语义匹配,同时支持sentence-transformers与HuggingFace Transformers两种使用方式,满足不同开发者需求。
msmarco-distilbert-base-v3 - 基于DistilBERT的文本向量化模型支持语义搜索与文本聚类
向量映射GithubDistilBert语义搜索自然语言处理Huggingface开源项目模型sentence-transformers
msmarco-distilbert-base-v3是一个文本向量化模型,可将文本转换为计算机可理解的向量形式。基于sentence-transformers框架开发,主要应用于文本相似度计算、语义搜索和文本聚类等场景。该模型采用轻量级的DistilBERT架构,在保持性能的同时提高了处理效率。
stsb-bert-base - 基于BERT的文本向量化和语义相似度分析工具
句向量GithubBERT自然语言处理Huggingface开源项目模型语义相似度sentence-transformers
stsb-bert-base是一个已弃用的句子转换模型,基于BERT架构可将文本转化为768维向量表示。模型通过sentence-transformers或HuggingFace Transformers库提供支持,适用于文本聚类和语义搜索。尽管不再推荐使用,但其架构设计和实现方法对理解文本向量化技术具有重要参考意义。
sup-simcse-ja-large - 基于BERT的日语句向量模型与文本相似度分析工具
JSNLI日本语文本相似度Github模型自然语言处理sentence-transformersHuggingface开源项目文本嵌入
该模型基于BERT-large-japanese-v2架构开发,通过JSNLI数据集训练完成。模型整合了sentence-transformers和HuggingFace Transformers框架,可实现日语文本的向量化表示和相似度分析。技术特点包括cls池化策略、1024维隐藏层和BFloat16数据格式,适用于日语自然语言处理任务。
jina-embeddings-v2-base-zh - 基于Transformer的中文文本向量模型,适用于语义检索和相似度计算
模型评估句子相似度feature-extractionGithub模型自然语言处理sentence-transformersHuggingface开源项目
基于Transformer架构的中文文本向量模型,支持句子相似度计算、文本分类、检索和重排序功能。在MTEB中文基准测试中完成了医疗问答、电商等领域的评估,支持中英双语处理,采用Apache-2.0开源许可证。
paraphrase-TinyBERT-L6-v2 - 轻量级句子嵌入模型支持语义搜索与文本聚类
TinyBERTGithub模型自然语言处理sentence-transformers语义搜索Huggingface开源项目句子嵌入
paraphrase-TinyBERT-L6-v2是基于sentence-transformers的句子嵌入模型,将句子和段落映射到768维密集向量空间。模型采用轻量级架构,主要应用于语义搜索和文本聚类。支持通过sentence-transformers或HuggingFace Transformers库进行调用,适用于计算资源受限的应用场景。