#句子嵌入

SimCSE项目提供一个简单的句子嵌入对比学习框架，支持有标签和无标签数据。无监督模型使用标准dropout通过输入句子预测自身，有监督模型利用NLI数据集的注释对进行对比学习。用户可以轻松安装并使用SimCSE进行句子嵌入、相似性计算和句子检索。该项目支持HuggingFace集成和faiss相似性搜索库，并提供全面的模型评估和训练脚本。详细信息和代码请参阅SimCSE仓库。

SONAR - 先进的多语言多模态句子表示模型

Github开源项目多语言多模态机器翻译句子嵌入SONAR

SONAR是Meta AI推出的开源多语言多模态句子表示模型。它支持200种语言的文本处理和37种语言的语音处理，在多语言相似性搜索任务中性能优异。SONAR可用于文本和语音嵌入、文本重构、跨语言翻译等多种自然语言处理任务，为多语言多模态AI应用提供了强大的基础。

bert-base-nli-stsb-mean-tokens - 句子嵌入与语义搜索的基础模型

Github开源项目模型Huggingfacesentence-transformers句子嵌入BERT模型句子相似性变形金刚

此模型能将句子和段落映射为768维向量，适用于分类和语义搜索。但由于其生成的嵌入质量不佳，已被弃用。建议使用最新的模型以提升效果。通过安装sentence-transformers库或使用HuggingFace Transformers，都能实现向量转换功能。

amd-partial-phonetree-v1 - 融合句子转换器和对比学习的高效文本分类模型

Github开源项目模型Huggingface文本分类句子嵌入SetFit少样本学习Logistic回归

SetFit模型结合sentence-transformers/paraphrase-mpnet-base-v2，通过高效的少样本学习实现文本分类。模型采用对比学习微调句子转换器和训练LogisticRegression分类头，具有优异的分类性能。支持最大512标记长度，适用于电话语音邮件和电话树分类需求。模型适合需要高效文本分类的研发人员和数据科学家使用。

allenai-specter - 基于Sentence-Transformers的科学文献相似度建模

Github开源项目模型Huggingface句子嵌入特征提取句子相似性科学出版物AllenAI SPECTER

该模型将AllenAI SPECTER转化为Sentence-Transformers框架，可用于将科学文献的标题和摘要映射至向量空间以计算相似度。在安装Sentence-Transformers库后，用户能轻松进行相似度计算，同时也支持从HuggingFace Transformers加载模型。本文档还展示了如何使用池化操作聚合上下文词嵌入。

all-MiniLM-L6-v2 - 高性能句子嵌入模型实现多种NLP任务

Github开源项目自然语言处理语义搜索模型Huggingface迁移学习sentence-transformers句子嵌入

all-MiniLM-L6-v2是一个基于sentence-transformers的句子嵌入模型。它能将文本映射至384维向量空间,在超11亿对句子上微调而成。该模型适用于语义搜索、聚类等多种NLP任务,采用对比学习方法生成高质量嵌入。通过sentence-transformers或Hugging Face Transformers库,可轻松集成到各类应用中。在多项基准测试中,all-MiniLM-L6-v2展现出优异性能。

bge-large-en-v1.5 - Transformers.js适配的ONNX模型及其应用简介

Github开源项目模型ONNXHuggingface余弦相似度句子嵌入特征提取Transformers.js

该开源项目使用ONNX权重，以在Transformers.js环境下实现模型兼容。通过特征提取管道，用户能够高效计算句子嵌入，实现文本语义分析与快速检索，提升JavaScript环境下的文本处理效率。

xiaobu-embedding-v2 - 中文语义嵌入模型适用于广泛NLP任务

Github开源项目模型Huggingface信息检索MTEB文本分类句子嵌入语义相似度

xiaobu-embedding-v2是一款中文语义嵌入模型，在多项自然语言处理任务中表现出色。该模型在文本相似度、分类、聚类、重排序和检索等方面均有良好表现，尤其在MTEB基准测试中成绩突出。这个模型可应用于问答系统、搜索优化和情感分析等多种实际场景。

ATTACK-BERT - ATT&CK BERT网络安全语义分析模型

Github开源项目语言模型模型网络安全Huggingface句子嵌入语义相似度ATT&CK BERT

ATT&CK BERT是一个专门针对网络安全领域的语言模型，基于sentence-transformers框架开发。该模型能够将描述攻击行为的句子转化为语义嵌入向量，有效分析句子间的语义相似度。ATT&CK BERT通过sentence-transformers库实现简单部署，还可与SMET工具配合使用，实现文本到ATT&CK技术的映射，为网络安全分析提供有力支持。

all_datasets_v4_MiniLM-L6 - 大规模数据集训练的高效句向量模型用于多语言语义表示

Github开源项目模型NLPHuggingface对比学习Flax句子嵌入语义相似度

all_datasets_v4_MiniLM-L6是一个基于MiniLM-L6预训练模型的句向量模型，通过10亿句对数据集微调而成。该模型采用对比学习方法，可生成捕捉句子语义信息的向量表示。适用于信息检索、聚类和句子相似度等任务，可通过SentenceTransformers库使用。模型在TPU上训练540k步，批量大小为1024，性能优异，应用范围广泛。

stsb-roberta-large - 已弃用的1024维句子嵌入模型

Github开源项目自然语言处理模型RoBERTaHuggingfacesentence-transformers句子嵌入语义相似度

stsb-roberta-large是一个基于sentence-transformers的已弃用模型，可将句子和段落映射到1024维向量空间。虽不再推荐使用，但它仍可用于聚类和语义搜索任务，并为理解句子嵌入技术提供参考。该模型基于RoBERTa架构，使用平均池化生成句子嵌入，可通过sentence-transformers或HuggingFace Transformers库轻松实现。

sentence-transformers-e5-large-v2 - 句子向量化模型实现文本相似度检索和聚类

Github开源项目自然语言处理语义搜索模型Huggingfacesentence-transformers句子嵌入embaas API

sentence-transformers-e5-large-v2模型是intfloat/e5-large-v2的改进版本，能将文本映射至1024维向量空间。该模型在聚类和语义搜索方面表现出色，支持通过sentence-transformers库或embaas API快速集成。模型在MTEB评测中获得优异成绩，为文本嵌入和相似度计算提供了有力支持。

multi-qa-MiniLM-L6-dot-v1 - 多语言句子相似度模型，支持语义搜索

Github开源项目语义搜索模型Huggingface句子嵌入句子相似度multi-qa-MiniLM-L6-dot-v1自监督对比学习

multi-qa-MiniLM-L6-dot-v1是一个专为语义搜索设计的句子嵌入模型，将文本转化为384维的密集向量。此模型训练于215M个问题和答案对，可处理多种数据来源。用户可通过sentence-transformers轻松加载模型进行查询和文档编码，从而计算点积相似度分数，实现相关性排序。除了基础功能外，该模型同样支持HuggingFace Transformers的复杂上下文嵌入处理，能有效提升语义搜索效率，适用于不超过512词片的文本。

stsb-distilbert-base - 语义搜索与聚类任务的句子嵌入模型

Github开源项目自然语言处理语义搜索模型机器学习模型Huggingfacesentence-transformers句子嵌入

此模型将句子和段落转换为768维的稠密向量，适用于语义搜索和聚类任务。然而，由于其性能已不再是最优，建议选择更优质的句子嵌入模型。如需使用，可通过安装sentence-transformers库轻松实现，或使用HuggingFace Transformers进行更高级的处理，如加入注意力掩码的平均池化。尽管模型效能下降，其架构仍有参考价值。

sbert_large_mt_nlu_ru - 大规模多任务俄语句子嵌入模型

Github开源项目自然语言处理BERT模型Huggingface多任务学习句子嵌入俄语模型

这是一个基于BERT架构的大规模多任务模型，用于生成俄语句子嵌入。模型采用平均池化策略处理token embeddings，已完成Russian SuperGLUE基准测试验证。通过HuggingFace模型库可实现多句俄语文本的嵌入计算。该模型由SberDevices团队开发，致力于提升俄语自然语言处理能力。

multi-qa-mpnet-base-dot-v1 - 基于自监督对比学习的句子语义搜索模型

Github开源项目语义搜索模型Huggingface对比学习sentence-transformers句子嵌入句子相似度

该模型用于提升语义搜索能力，将句子和段落映射至768维向量空间，达成高效信息检索。训练依托逾2.15亿问答对，覆盖丰富数据集与平台。模型应用CLS池化与点积相似度评估，适合处理有限文本语义匹配，同时支持sentence-transformers与HuggingFace Transformers两种使用方式，满足不同开发者需求。

paraphrase-TinyBERT-L6-v2 - 轻量级句子嵌入模型支持语义搜索与文本聚类

Github开源项目自然语言处理语义搜索模型Huggingfacesentence-transformers句子嵌入TinyBERT

paraphrase-TinyBERT-L6-v2是基于sentence-transformers的句子嵌入模型，将句子和段落映射到768维密集向量空间。模型采用轻量级架构，主要应用于语义搜索和文本聚类。支持通过sentence-transformers或HuggingFace Transformers库进行调用，适用于计算资源受限的应用场景。

cross-encoder-russian-msmarco - 高效的俄文跨编码器模型用于信息检索

Github开源项目模型Huggingface信息检索文本分类句子嵌入DiTy/cross-encoder-russian-msmarcoDeepPavlov/rubert-base-cased

此开源模型基于DeepPavlov/rubert-base-cased，并经过MS-MARCO数据集优化，专用于俄语信息检索，支持高效的查询和段落相关性排序。通过安装sentence-transformers可直接使用，也可通过HuggingFace Transformers扩展文本分类功能，适合需处理俄语复杂文本的用户。

sentence-bert-base-italian-xxl-uncased - 提升语义分析与聚类效果的意大利语句子相似度模型

Github开源项目自然语言处理模型训练模型Huggingfacesentence-transformers句子嵌入句子相似性

这个意大利语句子相似度模型能将文本映射到768维度的密集向量空间，适用于语义搜索和语句聚类。其基于dbmdz/bert-base-italian-xxl-uncased构建，为文本理解与分析提供支持。在sentence-transformers库的支持下，模型的安装与使用变得极为简便，即使不使用该库，也可通过HuggingFace Transformers实现。其性能在Sentence Embeddings Benchmark中经过自动化评估，可供参考。

USER-bge-m3 - 专为俄语优化的高性能文本嵌入模型

Github开源项目自然语言处理模型Huggingface句子嵌入语义相似度俄语句向量USER-bge-m3

USER-bge-m3是一个为俄语优化的文本嵌入模型，基于bge-m3架构开发。该模型能将俄语句子和段落转换为1024维向量表示，适用于聚类和语义搜索等任务。通过创新的训练方法，如数据对称性微调和LM-Cocktail模型融合，USER-bge-m3在多个俄语基准测试中表现出色，超越了原始bge-m3模型的性能。

labse_bert - 多语言BERT句子嵌入模型及其应用

Github开源项目自然语言处理多语言处理模型Huggingface句子嵌入LABSE BERT模型应用

LaBSE BERT是一种语言无关的句子嵌入模型，由Fangxiaoyu Feng等人开发并在TensorFlow Hub上提供。该模型能够将文本转换为高效的向量表示，适用于多语言文本处理。利用AutoTokenizer和AutoModel加载模型，并通过mean_pooling方法获取句子嵌入，以增强文本分析和信息检索等领域的性能。使用PyTorch实现编码和处理，多语言文本分析更加轻松。

LaBSE - 基于BERT的多语言句子编码引擎助力跨语言语义检索

Github开源项目自然语言处理多语言BERT模型Huggingface句子嵌入LaBSE

作为Google开源的多语言句子编码模型，LaBSE整合掩码语言建模与翻译语言建模技术，实现109种语言的高效句子嵌入。经CommonCrawl和维基百科数据集训练，可用于跨语言语义相似度计算和双语文本检索，并支持完整Python接口调用

unsup-simcse-bert-base-uncased - 无监督对比学习的BERT句向量提取模型

Github开源项目自然语言处理BERT模型HuggingfaceSimCSE句子嵌入特征提取

Princeton NLP小组开发的SimCSE模型采用BERT架构和无监督对比学习方法，通过英文维基百科数据训练而成。该模型能够有效提取文本特征，在保持语义对齐的同时优化了向量分布，主要应用于句子相似度计算和自然语言处理任务。

cde-small-v1 - 增强文本分类与信息检索能力的多任务模型

Github开源项目模型分类HuggingfaceMTEB句子嵌入聚类检索

该项目在多任务环境下表现优异，尤其在文本分类与检索任务中。模型在多个数据集上表现出高准确率与精度，广泛适用于商业、教育与研究领域。其卓越的性能满足了对高精确度的需求，提供了一致而可靠的结果。

ko-sroberta-nli - 韩语句子语义嵌入的开源模型

Github开源项目语义搜索模型Huggingface句子嵌入句子相似度韩国语ko-sroberta-nli

ko-sroberta-nli模型通过将韩语文本转换为768维向量，支持多种自然语言处理任务如聚类和语义搜索。它在KorNLI和KorSTS数据集上的评估结果值得关注，且允许在不使用sentence-transformers时结合Hugging Face Transformers进行操作，实现灵活的词嵌入应用。这款工具具备便捷的安装和操作，可高效提升韩语语义处理能力。

bert-large-nli-mean-tokens - 句子相似性嵌入与聚类应用

Github开源项目预训练模型BERT模型Huggingfacesentence-transformers句子嵌入句子相似性

该模型为sentence-transformers的一部分，能够将句子和段落转化为1024维的密集向量空间，用于聚类和语义搜索。虽然该模型已被标记为弃用且句子嵌入质量较低，推荐选择其他更优质的模型。适用的工具可以通过pip安装，并提供Python实现的代码示例。尽管如此，该模型仍作为一种句子嵌入学习方法的参考，对自然语言处理技术爱好者具有借鉴意义。

multi-sentence-BERTino - 意大利语句子嵌入模型的功能与应用

Github开源项目语义搜索模型Huggingface句子嵌入句子相似性意大利语multi-sentence-BERTino

multi-sentence-BERTino是专为意大利语设计的句子嵌入模型，依托sentence-transformers实现高效的建模。该模型使用mmarco italian和stsb italian数据集进行训练，可用于语义搜索和聚类，支持两种操作方式：使用sentence-transformers库或HuggingFace Transformers。文档包含训练参数和评估结果，详细描述了完整模型架构，适合各种自然语言处理任务。

sentence-camembert-base - 提供法语句子嵌入的先进方法，有效提升文本相似度

Github开源项目模型模型评估Huggingface句子嵌入句子相似性法语sentence-camembert-base

该模型利用预训练的Camembert-base和Siamese BERT-Networks微调，为法语句子嵌入提供了先进的方法，通过训练在stsb_multi_mt数据集上，有效提升文本相似度精确性。测试中Pearson相关系数达到82.36，适合从事法语内容分析的开发者，助力提高自然语言处理任务的准确性和效率。

nq-distilbert-base-v1 - 句子向量化提升语义搜索与聚类效率

Github开源项目Transformer模型模型评估Huggingfacesentence-transformers句子嵌入句子相似度

nq-distilbert-base-v1模型以sentence-transformers为基础，将句子和段落转换为768维向量，以支持聚类和语义搜索任务。通过安装sentence-transformers库可轻松使用，具备丰富的使用选项，包括通过HuggingFace Transformers实现上下文嵌入和均值池化等应用，广泛适用于文本相似性评估、内容聚类和语义检索等自然语言处理任务，提供可靠性能与灵活应用场景。

SONAR: 革命性的多语言多模态句子嵌入技术

3 个月前

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com