#sentence-transformers

open-text-embeddings - 使用多源模型的OpenAI API兼容文本向量生成工具

open-text-embeddingsOpenAI APIembeddingssentence-transformersLangChainGithub开源项目

该项目创建了与OpenAI API兼容的文本向量生成端点，支持多种开源句子转换模型，包括BAAI/bge-large-en、intfloat/e5-large-v2、sentence-transformers等。提供详细的本地和云端部署指南，方便用户在多种环境下运行服务器，实现高效查询与存储。用户也可通过Colab在线测试，体验开源文本向量生成的便捷性。

vietnamese-bi-encoder - 越南语句子相似度模型PhoBERT的应用与语义搜索支持

模型训练开源项目sentence-transformersGithub模型HuggingfacePhoBERT语义搜索句子相似度

项目依托sentence-transformers框架及PhoBERT-base-v2模型，旨在优化越南语句子相似度与聚类任务。通过结合MS Macro、SQuAD v2及Zalo 2021数据集进行训练，其在语义搜索和法律文本检索表现上有所提升。支持用户通过安装sentence-transformers库及HuggingFace的API和Widget多种方式轻松上手。

all_datasets_v3_mpnet-base - 基于MPNet的高效句子和段落编码模型

开源项目句子相似性模型对比学习信息检索Huggingface句向量sentence-transformersGithub

该模型利用sentence-transformers，通过microsoft/mpnet-base预训练模型和自监督对比学习目标进行微调，将句子和段落有效编码至768维度向量空间，适用于信息检索、语义搜索和聚类任务，尤其是在句子相似度计算中有较好表现。微调时，使用了超过10亿对的句子数据，并在TPU v3-8环境下进行了920k步训练，采用AdamW优化器和对比损失。此外，在无sentence-transformers库的情况下，通过特定的池化操作仍可实现相似的编码效果，代码实现简单易用。

bge-base-en-v1.5 - 增强文本处理能力的多任务学习模型

sentence-transformers特征提取句子相似性分类句子聚类Github开源项目Huggingface模型

bge-base-en-v1.5模型通过多任务学习优化自然语言处理技术，覆盖分类、检索、聚类和重排任务。在多个MTEB数据集上表现优异，例如在亚马逊情感分类任务中达到93.39%的准确率，在AskUbuntu重排任务中MRR达到74.28%。该模型具有MIT开源许可，适用于多种英语任务，为研究人员和开发者提供有效支持。

all-MiniLM-L6-v2 - 高性能句子嵌入模型实现多种NLP任务

自然语言处理sentence-transformers语义搜索开源项目句子嵌入Github迁移学习Huggingface模型

all-MiniLM-L6-v2是一个基于sentence-transformers的句子嵌入模型。它能将文本映射至384维向量空间,在超11亿对句子上微调而成。该模型适用于语义搜索、聚类等多种NLP任务,采用对比学习方法生成高质量嵌入。通过sentence-transformers或Hugging Face Transformers库,可轻松集成到各类应用中。在多项基准测试中,all-MiniLM-L6-v2展现出优异性能。

paraphrase-multilingual-mpnet-base-v2 - 跨语言句子向量化模型支持聚类和语义检索

模型Github多语言模型开源项目文本嵌入Huggingface语义搜索sentence-transformers自然语言处理

paraphrase-multilingual-mpnet-base-v2是一个基于sentence-transformers的多语言句子嵌入模型，支持50多种语言。它将句子和段落映射为768维向量，适用于聚类和语义搜索。模型易于使用，通过pip安装即可快速集成。在Sentence Embeddings Benchmark上表现出色，采用XLMRobertaModel和平均池化层结构，可有效处理不同长度的文本输入。

roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn - 西班牙语语义搜索和问答优化模型

Githubsentence-transformers句子相似度西班牙语开源项目自然语言处理语义搜索Huggingface模型

该模型是基于roberta-base-bne进行微调，专为西班牙语问答场景优化。通过将句子和段落转换为768维的密集向量空间，适用于语义搜索和文本聚类等任务。使用MS-MARCO数据集的西班牙语翻译版进行训练，尤其适合处理西班牙语问题。输入文本超过512个词片段时会自动截断，旨在提供精确的问答性能。

acge_text_embedding - 高性能中文文本嵌入模型，提升语义相似度和检索效果

文本嵌入Huggingface模型信息检索Github语义相似度MTEB开源项目sentence-transformers

acge_text_embedding是一个针对中文自然语言处理优化的文本嵌入模型。该模型在MTEB基准测试中表现优异，尤其在语义相似度计算和信息检索任务上成绩突出。它还在文本分类等多个中文NLP任务中展现出优秀性能，为中文自然语言处理应用提供了高效的文本表示能力。

distiluse-base-multilingual-cased - 多语言句子嵌入模型支持语义搜索和文本相似度分析

Huggingface模型Github开源项目sentence-transformers向量嵌入多语言模型语义搜索句子相似度

distiluse-base-multilingual-cased是基于sentence-transformers的多语言句子嵌入模型，将句子和段落映射至512维向量空间。该模型支持多语言处理，适用于聚类、语义搜索和跨语言文本相似度分析。它提供高质量的句子嵌入，并可通过简洁的Python代码实现句子编码，为自然语言处理任务提供有力支持。

ember-v1 - 多任务自然语言处理基准测试模型

模型开源项目Huggingface特征提取transformerssentence-transformersGithubMTEB句子相似度

ember-v1是一个在MTEB基准测试中表现出色的自然语言处理模型。该模型在分类、检索、聚类和语义相似度等多种NLP任务中取得了显著成果。在Amazon评论分类和问答检索等实际应用场景中，ember-v1展现出优异性能。这个多功能模型为文本分析和信息检索提供了有力支持，是研究人员和开发者的实用NLP工具。

gte-large-zh - 中文语义相似度与检索的卓越表现模型

模型gte-large-zhGithubsentence-transformersMTEB开源项目Huggingface语义相似度自然语言处理

gte-large-zh模型在MTEB中文基准测试中表现突出，涵盖句子相似度、文本分类、聚类、重排序和检索等多个任务。该模型在CMNLI和JDReview等数据集上的准确率超过80%，为中文自然语言处理应用提供了稳定的语义理解基础。

sentence-t5-base - 基于T5架构的句子编码模型用于文本相似度分析

模型sentence-t5-baseGithub向量嵌入sentence-transformers开源项目Huggingface语义相似度自然语言处理

sentence-t5-base是一个基于T5架构的句子编码模型，能将文本映射到768维向量空间。该模型在句子相似度任务中表现优异，但语义搜索效果一般。它由TensorFlow版本转换而来，可通过sentence-transformers库轻松使用。模型仅包含T5-base的编码器部分，权重采用FP16格式存储。使用时需要sentence-transformers 2.2.0及以上版本。这个模型适用于多种自然语言处理应用场景，尤其是文本相似度分析。

nli-distilroberta-base-v2 - sentence-transformers模型实现句子向量化和语义分析

模型向量嵌入Github开源项目HuggingfaceRoBERTa自然语言处理sentence-transformers语义搜索

nli-distilroberta-base-v2是一个基于sentence-transformers的句子嵌入模型，将文本映射到768维向量空间。该模型适用于聚类、语义搜索等任务，使用简单且效果出色。它支持通过几行代码生成句子嵌入，为自然语言处理提供了有力工具。

bert-base-portuguese-cased-nli-assin-2 - 提升句子相似度与语义搜索的句子转换器

模型训练Huggingfacesentence-transformersGithub开源项目语义搜索模型特征提取句向量

模型将句子和段落转换为768维向量，用于聚类和语义搜索等任务。可通过安装sentence-transformers库或直接调用HuggingFace Transformers进行操作。采用SoftmaxLoss训练，并通过EmbeddingSimilarityEvaluator评估，结合BertModel与句子池化实现高效转换。

quora-distilbert-multilingual - 跨语言句子嵌入与语义搜索解决方案

句子相似性Githubsentence-transformers开源项目特征提取Huggingface语义搜索DistilBert模型

quora-distilbert-multilingual是一款依托sentence-transformers框架的模型，可将句子和段落转换为768维的向量，从而助力于句子聚类和语义搜索。用户可以选择使用sentence-transformers库简便地安装和使用，也可利用HuggingFace Transformers手动实现句子嵌入。该模型在Sentence Embeddings Benchmark测试中表现优异，模型结构包含DistilBert变换器和平均池化操作，为句子提供高效的表示能力。

MiniLM-L6-Keyword-Extraction - 高效句子嵌入模型，用于语义搜索与信息聚类

HuggingFace句子相似性Githubsentence-transformers开源项目对比学习Huggingface语义搜索模型

此项目通过自监督对比学习，训练出可将句子和段落转化为384维向量的模型，适用于语义搜索、信息检索和句子相似度任务。模型基于1B句子对数据集微调，利用TPU v3-8进行训练，并在Hugging Face社区活动期间开发。用户可使用sentence-transformers或HuggingFace Transformers实现多种自然语言处理应用。

stsb-distilbert-base - 语义搜索与聚类任务的句子嵌入模型

语义搜索句子嵌入开源项目机器学习模型自然语言处理模型Huggingfacesentence-transformersGithub

此模型将句子和段落转换为768维的稠密向量，适用于语义搜索和聚类任务。然而，由于其性能已不再是最优，建议选择更优质的句子嵌入模型。如需使用，可通过安装sentence-transformers库轻松实现，或使用HuggingFace Transformers进行更高级的处理，如加入注意力掩码的平均池化。尽管模型效能下降，其架构仍有参考价值。

vietnamese-embedding - 基于PhoBERT的越南语句嵌入模型提升多项NLP任务性能

模型PhoBERTvietnamese-embeddingGithubsentence-transformers开源项目Huggingface语义相似度自然语言处理

vietnamese-embedding是一个针对越南语优化的句子嵌入模型,基于PhoBERT架构开发。该模型通过四阶段训练,包括SimCSE初始训练、XNLI持续微调、STS基准微调和数据增强,将越南语句子编码为768维向量。在语义文本相似性等多项评估中,该模型性能优于现有越南语嵌入模型,可应用于语义搜索、文本聚类等自然语言处理任务。

deepset-mxbai-embed-de-large-v1 - 高性能德语句子嵌入模型

模型嵌入模型变换器模型Githubsentence-transformers特征提取开源项目Huggingface自然语言处理

deepset-mxbai-embed-de-large-v1是一个专为德语开发的句子嵌入模型。该模型基于Sentence Transformers技术,可将德语文本转换为向量表示。在语义相似度和文本分类等任务中表现优异,为德语自然语言处理应用奠定基础。支持高效特征提取,适用于多种下游任务。

robbert-2022-dutch-sentence-transformers - RobBERT模型改进的句子相似度与特征提取工具

特征提取荷兰开源项目sentence-transformersGithub模型Huggingface句子相似性语义搜索

该项目基于KU Leuven开发的RobBERT模型，提供句子相似度与特征提取功能，支持语义搜索和文本聚类等应用场景。通过翻译和微调多种Dutch语料库，模型在荷兰语环境中表现良好。用户可以通过安装sentence-transformers或使用HuggingFace Transformers来实现模型的使用，主要功能包括将句子和段落转换为768维度密集向量，为文本分析提供准确的句子嵌入。项目中使用的数据加载与优化策略有效提升了整体性能。

sentence-transformers-e5-large-v2 - 句子向量化模型实现文本相似度检索和聚类

Huggingface模型句子嵌入embaas APIGithub开源项目sentence-transformers自然语言处理语义搜索

sentence-transformers-e5-large-v2模型是intfloat/e5-large-v2的改进版本，能将文本映射至1024维向量空间。该模型在聚类和语义搜索方面表现出色，支持通过sentence-transformers库或embaas API快速集成。模型在MTEB评测中获得优异成绩，为文本嵌入和相似度计算提供了有力支持。

sentence-bert-base-italian-uncased - 意大利语句向量模型支持文本特征提取和语义相似度计算

文本相似度Github模型自然语言处理sentence-transformers句向量模型模型训练开源项目Huggingface

该模型是基于BERT架构的意大利语sentence-transformers模型，可将文本映射为768维向量。它支持文本特征提取、语义相似度计算和文本聚类等任务，适用于意大利语自然语言处理场景。模型使用CosineSimilarityLoss训练，并提供了详细的使用示例，可通过sentence-transformers或HuggingFace Transformers库轻松集成。

jina-embeddings-v2-base-es - 双语智能文本嵌入模型英语和西班牙语文本向量化解决方案

特征提取开源项目sentence-transformers模型文本相似度机器学习Github自然语言处理Huggingface

这是一款针对英语和西班牙语优化的文本嵌入模型。在MTEB基准测试中表现优异，可高效处理文本分类、检索和聚类等任务。模型支持跨语言文本相似度计算，适用于双语内容处理场景。基于sentence-transformers框架开发，具备出色的文本特征提取能力。

bilingual-embedding-large - 基于Transformer架构的法英双语文本向量模型

文本嵌入多语言模型开源项目sentence-transformers模型语义相似度Github自然语言处理Huggingface

bilingual-embedding-large是一个基于Transformer的法英双语句向量模型，支持聚类、重排序和检索等文本相似度任务。模型通过MTEB基准测试验证，在跨语言文本语义理解方面展现了稳定性能。该模型主要应用于法语和英语文本的语义分析与对比场景。

roberta-large-nli-stsb-mean-tokens - 基于RoBERTa的大规模语义相似度计算和文本嵌入模型

向量化模型嵌入Github自然语言处理Huggingface开源项目模型语义相似度sentence-transformers

这是一个基于RoBERTa的sentence-transformers模型，可将文本映射至1024维向量空间。它支持句子相似度计算、文本聚类和语义搜索等任务，并提供简便的API接口。该模型可通过sentence-transformers或HuggingFace Transformers库使用，便于获取文本嵌入。然而，由于性能已过时，建议采用更新的预训练模型替代。

bert-base-nli-stsb-mean-tokens - 句子嵌入与语义搜索的基础模型

变形金刚HuggingfaceBERT模型开源项目模型句子嵌入Githubsentence-transformers句子相似性

此模型能将句子和段落映射为768维向量，适用于分类和语义搜索。但由于其生成的嵌入质量不佳，已被弃用。建议使用最新的模型以提升效果。通过安装sentence-transformers库或使用HuggingFace Transformers，都能实现向量转换功能。

stsb-bert-tiny-openvino - 基于BERT的轻量级句子相似度和语义搜索模型

开源项目语义搜索深度学习sentence-transformers模型向量编码Github自然语言处理Huggingface

stsb-bert-tiny-openvino是一个轻量级的自然语言处理模型，基于sentence-transformers框架开发。模型将文本映射为128维向量，可用于文本相似度分析、聚类和语义检索。支持sentence-transformers和HuggingFace两种调用方式，配备完整的使用示例和文档。通过CosineSimilarityLoss训练优化，在保持高效处理能力的同时确保了模型的轻量化。

Semantic-Textual-Relatedness-Spanish - 基于Sentence-Transformers的西班牙语语义关联分析模型

Github语言模型HuggingfaceSemEval文本相关性开源项目模型语义相似度sentence-transformers

基于sentence-transformers框架开发的西班牙语语义关联分析模型，可将文本映射至256维向量空间，实现文本聚类和语义搜索功能。模型采用Transformer架构与CosineSimilarity损失函数，在SemEval-2024评测中获得0.677的Spearman相关系数。

dunzhang-stella_en_400M_v5 - 基于MTEB的英文语义匹配模型支持分类检索与聚类功能

模型评估机器学习GithubHuggingfacemteb开源项目transformers模型sentence-transformers

Stella_en_400M_v5是一个基于MTEB基准的英文语义匹配模型。在亚马逊商品评论分类任务中准确率达97.19%，同时支持文本分类、语义相似度计算、信息检索和文本聚类等应用场景。该模型在ArguAna检索任务中MAP@10达到56.21%，在ArxivClustering聚类任务中V-measure达到55.15%

sbert-all-MiniLM-L6-with-pooler - 基于MiniLM的384维句子向量化模型

ONNX特征提取Github向量嵌入语义搜索Huggingface开源项目模型sentence-transformers

sbert-all-MiniLM-L6-with-pooler基于sentence-transformers框架开发，将文本映射为384维向量表示。该模型在10亿对句子数据集上完成训练，可应用于文本聚类和语义搜索等场景。模型通过Hugging Face Optimum实现，支持便捷的特征提取功能。

multi-qa-mpnet-base-dot-v1 - 基于自监督对比学习的句子语义搜索模型

句子嵌入对比学习开源项目sentence-transformersGithub模型Huggingface语义搜索句子相似度

该模型用于提升语义搜索能力，将句子和段落映射至768维向量空间，达成高效信息检索。训练依托逾2.15亿问答对，覆盖丰富数据集与平台。模型应用CLS池化与点积相似度评估，适合处理有限文本语义匹配，同时支持sentence-transformers与HuggingFace Transformers两种使用方式，满足不同开发者需求。

msmarco-distilbert-base-v3 - 基于DistilBERT的文本向量化模型支持语义搜索与文本聚类

向量映射GithubDistilBert语义搜索自然语言处理Huggingface开源项目模型sentence-transformers

msmarco-distilbert-base-v3是一个文本向量化模型，可将文本转换为计算机可理解的向量形式。基于sentence-transformers框架开发，主要应用于文本相似度计算、语义搜索和文本聚类等场景。该模型采用轻量级的DistilBERT架构，在保持性能的同时提高了处理效率。

stsb-bert-base - 基于BERT的文本向量化和语义相似度分析工具

句向量GithubBERT自然语言处理Huggingface开源项目模型语义相似度sentence-transformers

stsb-bert-base是一个已弃用的句子转换模型，基于BERT架构可将文本转化为768维向量表示。模型通过sentence-transformers或HuggingFace Transformers库提供支持，适用于文本聚类和语义搜索。尽管不再推荐使用，但其架构设计和实现方法对理解文本向量化技术具有重要参考意义。

sup-simcse-ja-large - 基于BERT的日语句向量模型与文本相似度分析工具

JSNLI日本语文本相似度Github模型自然语言处理sentence-transformersHuggingface开源项目文本嵌入

该模型基于BERT-large-japanese-v2架构开发，通过JSNLI数据集训练完成。模型整合了sentence-transformers和HuggingFace Transformers框架，可实现日语文本的向量化表示和相似度分析。技术特点包括cls池化策略、1024维隐藏层和BFloat16数据格式，适用于日语自然语言处理任务。

jina-embeddings-v2-base-zh - 基于Transformer的中文文本向量模型，适用于语义检索和相似度计算

模型评估句子相似度feature-extractionGithub模型自然语言处理sentence-transformersHuggingface开源项目

基于Transformer架构的中文文本向量模型，支持句子相似度计算、文本分类、检索和重排序功能。在MTEB中文基准测试中完成了医疗问答、电商等领域的评估，支持中英双语处理，采用Apache-2.0开源许可证。

paraphrase-TinyBERT-L6-v2 - 轻量级句子嵌入模型支持语义搜索与文本聚类

TinyBERTGithub模型自然语言处理sentence-transformers语义搜索Huggingface开源项目句子嵌入

paraphrase-TinyBERT-L6-v2是基于sentence-transformers的句子嵌入模型，将句子和段落映射到768维密集向量空间。模型采用轻量级架构，主要应用于语义搜索和文本聚类。支持通过sentence-transformers或HuggingFace Transformers库进行调用，适用于计算资源受限的应用场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com