#语义搜索

wikipedia-semantic-search - 多语言维基百科语义搜索引擎和RAG聊天机器人

向量索引维基百科Upstash Vector语义搜索RAG聊天机器人Github开源项目

该项目利用Upstash Vector索引数百万篇维基百科文章，构建了支持11种语言的语义搜索引擎和RAG聊天机器人。通过BGE-M3嵌入模型实现多语言支持，结合Upstash Vector实现高效向量存储和查询。项目展示了跨语言语义搜索能力，并借助Upstash RAG Chat SDK实现智能聊天功能，为开发者提供多语言信息检索和交互平台。

all-MiniLM-L6-v2 - 高性能句子嵌入模型实现多种NLP任务

自然语言处理sentence-transformers语义搜索开源项目句子嵌入Github迁移学习Huggingface模型

all-MiniLM-L6-v2是一个基于sentence-transformers的句子嵌入模型。它能将文本映射至384维向量空间,在超11亿对句子上微调而成。该模型适用于语义搜索、聚类等多种NLP任务,采用对比学习方法生成高质量嵌入。通过sentence-transformers或Hugging Face Transformers库,可轻松集成到各类应用中。在多项基准测试中,all-MiniLM-L6-v2展现出优异性能。

paraphrase-multilingual-mpnet-base-v2 - 跨语言句子向量化模型支持聚类和语义检索

模型Github多语言模型开源项目文本嵌入Huggingface语义搜索sentence-transformers自然语言处理

paraphrase-multilingual-mpnet-base-v2是一个基于sentence-transformers的多语言句子嵌入模型，支持50多种语言。它将句子和段落映射为768维向量，适用于聚类和语义搜索。模型易于使用，通过pip安装即可快速集成。在Sentence Embeddings Benchmark上表现出色，采用XLMRobertaModel和平均池化层结构，可有效处理不同长度的文本输入。

msmarco-bert-base-dot-v5 - BERT语义搜索模型用于高效文本编码和相似度计算

模型BERTGithub开源项目HuggingfaceMS MARCO数据集嵌入向量sentence-transformers语义搜索

msmarco-bert-base-dot-v5是一个语义搜索模型，基于sentence-transformers框架开发。该模型将文本映射到768维向量空间，在MS MARCO数据集上训练而成。它能高效进行文本编码和相似度计算，支持通过sentence-transformers或HuggingFace Transformers库集成使用。这个模型适用于语义搜索等多种自然语言处理任务，为开发者提供了便捷的文本分析工具。

jina-colbert-v2 - 多语言信息检索的新一代智能模型

模型语义搜索嵌入模型ColBERTGithub神经信息检索多语言检索开源项目Huggingface

jina-colbert-v2是一个多语言信息检索模型，支持128种语言，采用马特里奥什卡嵌入技术实现效率与精度的平衡。该模型具有8192个输入上下文标记和标记级嵌入的可解释性。在BEIR、MS MARCO等基准测试中，jina-colbert-v2展现出优于前代模型和其他主流方案的检索性能。

pubmedbert-base-embeddings - 专为医学文献优化的嵌入模型支持语义搜索和RAG应用

模型Github医学文献开源项目Huggingface自然语言处理嵌入向量语义搜索PubMedBERT

PubMedBERT Embeddings是一个专门针对医学文献优化的嵌入模型。它基于PubMedBERT进行微调，将句子和段落映射到768维向量空间。该模型在PubMed标题-摘要对上训练，相比通用模型能为医学文献生成更高质量的嵌入向量。它支持聚类、语义搜索等应用，可通过txtai、Sentence-Transformers或Hugging Face Transformers等框架轻松集成。在多个PubMed相关评估数据集上，该模型展现出优秀的性能表现。

msmarco-MiniLM-L12-cos-v5 - 用于语义搜索的句子转换和嵌入模型

MiniLMHuggingface模型MS MARCOGithub开源项目自然语言处理句子转换器语义搜索

msmarco-MiniLM-L12-cos-v5是一个专为语义搜索设计的句子转换模型，能将文本映射到768维向量空间。该模型在MS MARCO数据集上训练，支持通过sentence-transformers和HuggingFace Transformers两种方式使用。它生成规范化嵌入，适用于多种相似度计算方法，可用于开发高效的语义搜索应用。

st-codesearch-distilroberta-base - 基于DistilRoBERTa的代码搜索嵌入模型

模型语义搜索代码搜索DistilRoBERTaGithub向量嵌入sentence-transformersHuggingface开源项目

st-codesearch-distilroberta-base是一个基于DistilRoBERTa的句子转换器模型，可将文本映射到768维向量空间。该模型在code_search_net数据集上训练，专门用于文本到代码的搜索任务。它支持语义搜索和聚类等应用，并提供简单的API接口。用户可以利用这个模型生成文本嵌入，实现代码搜索和相似度比较等功能。这个预训练模型为代码检索和自然语言处理任务提供了有力工具。

specter2_base - 科学文献嵌入模型支持多任务适配

嵌入向量科学文献Huggingface模型SPECTER2Github开源项目自然语言处理语义搜索

SPECTER2是一个生成科学文献嵌入的开源模型。它基于600万篇论文引用关系训练，通过适配器支持分类、回归、近似检索和即时搜索等任务。该模型在SciRepEval和MDCR等基准测试中表现出色，为文献检索、分类和推荐等应用提供高质量的文献表示。

S-PubMedBert-MS-MARCO - 医疗文本信息检索专用BERT模型

模型Github开源项目Huggingfacesentence-transformers语义搜索PubMedBERT医疗文本处理MS-MARCO

S-PubMedBert-MS-MARCO是一个针对医疗和健康文本领域优化的信息检索模型。它基于PubMedBERT，并通过MS-MARCO数据集微调，可将文本映射为768维向量。该模型适用于语义搜索和文本聚类，支持Sentence-Transformers和HuggingFace Transformers框架，为医疗文本分析提供了有效工具。

sentence-t5-large - 将句子和段落转化为768维向量的自然语言处理模型

模型Github开源项目文本编码Huggingfacesentence-transformers语义搜索句子相似度向量空间

sentence-t5-large是一个基于sentence-transformers的自然语言处理模型，能够将句子和段落转换为768维向量。这个模型在句子相似性任务中表现出色，但在语义搜索方面效果一般。它是由TensorFlow的st5-large-1模型转换而来，采用T5-large模型的编码器，并以FP16格式存储权重。使用时需要sentence-transformers 2.2.0或更高版本。该模型在句子嵌入基准测试中取得了良好成绩，为各种自然语言处理任务提供了有力支持。

gtr-t5-large - 基于T5-large的语义搜索模型实现句子到768维向量的映射

T5模型模型向量嵌入Github开源项目Huggingface自然语言处理sentence-transformers语义搜索

gtr-t5-large是一个基于sentence-transformers框架的语义搜索模型，能够将句子和段落映射到768维的向量空间。该模型由TensorFlow版本的gtr-large-1转换而来，仅使用T5-large模型的编码器部分，并以FP16格式存储权重。gtr-t5-large提供简便的接口，可轻松生成文本嵌入，适用于多种自然语言处理任务，如语义相似度计算和信息检索。

gtr-t5-base - 基于T5的高效句子向量模型用于语义搜索

T5模型模型向量嵌入Github开源项目Huggingface自然语言处理sentence-transformers语义搜索

gtr-t5-base是一个基于sentence-transformers框架的语义搜索模型。它将句子和段落映射到768维向量空间，专门针对语义搜索任务优化。该模型由T5-base编码器转换而来，能生成高质量句子嵌入，适用于多种NLP任务。使用简便，仅需安装sentence-transformers库。在句子嵌入基准测试中表现优异，是语义相似度计算和信息检索的有效工具。

distiluse-base-multilingual-cased - 多语言句子嵌入模型支持语义搜索和文本相似度分析

Huggingface模型Github开源项目sentence-transformers向量嵌入多语言模型语义搜索句子相似度

distiluse-base-multilingual-cased是基于sentence-transformers的多语言句子嵌入模型，将句子和段落映射至512维向量空间。该模型支持多语言处理，适用于聚类、语义搜索和跨语言文本相似度分析。它提供高质量的句子嵌入，并可通过简洁的Python代码实现句子编码，为自然语言处理任务提供有力支持。

bi-encoder_msmarco_bert-base_german - 德语语义搜索和文档检索的先进模型基于MSMARCO数据集训练

模型BERTGithub开源项目Huggingface信息检索文档检索语义搜索MSMARCO

这个模型专为德语语义搜索和文档检索设计。它使用机器翻译的MSMARCO数据集训练,结合硬负样本和Margin MSE损失,在非对称搜索任务中达到了先进水平。模型在germandpr-beir基准测试的NDCG指标上表现出色,优于其他多语言模型。它与Sentence Transformer库兼容,可广泛应用于各类信息检索任务。

nli-distilroberta-base-v2 - sentence-transformers模型实现句子向量化和语义分析

模型向量嵌入Github开源项目HuggingfaceRoBERTa自然语言处理sentence-transformers语义搜索

nli-distilroberta-base-v2是一个基于sentence-transformers的句子嵌入模型，将文本映射到768维向量空间。该模型适用于聚类、语义搜索等任务，使用简单且效果出色。它支持通过几行代码生成句子嵌入，为自然语言处理提供了有力工具。

bert-base-portuguese-cased-nli-assin-2 - 提升句子相似度与语义搜索的句子转换器

模型训练Huggingfacesentence-transformersGithub开源项目语义搜索模型特征提取句向量

模型将句子和段落转换为768维向量，用于聚类和语义搜索等任务。可通过安装sentence-transformers库或直接调用HuggingFace Transformers进行操作。采用SoftmaxLoss训练，并通过EmbeddingSimilarityEvaluator评估，结合BertModel与句子池化实现高效转换。

quora-distilbert-multilingual - 跨语言句子嵌入与语义搜索解决方案

句子相似性Githubsentence-transformers开源项目特征提取Huggingface语义搜索DistilBert模型

quora-distilbert-multilingual是一款依托sentence-transformers框架的模型，可将句子和段落转换为768维的向量，从而助力于句子聚类和语义搜索。用户可以选择使用sentence-transformers库简便地安装和使用，也可利用HuggingFace Transformers手动实现句子嵌入。该模型在Sentence Embeddings Benchmark测试中表现优异，模型结构包含DistilBert变换器和平均池化操作，为句子提供高效的表示能力。

stsb-distilbert-base - 语义搜索与聚类任务的句子嵌入模型

语义搜索句子嵌入开源项目机器学习模型自然语言处理模型Huggingfacesentence-transformersGithub

此模型将句子和段落转换为768维的稠密向量，适用于语义搜索和聚类任务。然而，由于其性能已不再是最优，建议选择更优质的句子嵌入模型。如需使用，可通过安装sentence-transformers库轻松实现，或使用HuggingFace Transformers进行更高级的处理，如加入注意力掩码的平均池化。尽管模型效能下降，其架构仍有参考价值。

camembert-L4 - 精简版法语BERT模型，支持文本分类和语义搜索

Huggingface特征提取开源项目模型CamemBERT-L4Github语义搜索语言模型文本分类

CamemBERT-L4是CamemBERT模型的精简版本，通过裁剪顶部层次来提高性能。适合在文本分类、抽取式问答、语义搜索等领域进行微调，用于决策的完整句子任务，而非文本生成。支持掩码语言建模（MLM）与文本特征提取，模型参数和大小均有减少，提升了处理效率，同时保持其重要功能。

robbert-2022-dutch-sentence-transformers - RobBERT模型改进的句子相似度与特征提取工具

特征提取荷兰开源项目sentence-transformersGithub模型Huggingface句子相似性语义搜索

该项目基于KU Leuven开发的RobBERT模型，提供句子相似度与特征提取功能，支持语义搜索和文本聚类等应用场景。通过翻译和微调多种Dutch语料库，模型在荷兰语环境中表现良好。用户可以通过安装sentence-transformers或使用HuggingFace Transformers来实现模型的使用，主要功能包括将句子和段落转换为768维度密集向量，为文本分析提供准确的句子嵌入。项目中使用的数据加载与优化策略有效提升了整体性能。

sentence-transformers-e5-large-v2 - 句子向量化模型实现文本相似度检索和聚类

Huggingface模型句子嵌入embaas APIGithub开源项目sentence-transformers自然语言处理语义搜索

sentence-transformers-e5-large-v2模型是intfloat/e5-large-v2的改进版本，能将文本映射至1024维向量空间。该模型在聚类和语义搜索方面表现出色，支持通过sentence-transformers库或embaas API快速集成。模型在MTEB评测中获得优异成绩，为文本嵌入和相似度计算提供了有力支持。

stsb-bert-tiny-openvino - 基于BERT的轻量级句子相似度和语义搜索模型

开源项目语义搜索深度学习sentence-transformers模型向量编码Github自然语言处理Huggingface

stsb-bert-tiny-openvino是一个轻量级的自然语言处理模型，基于sentence-transformers框架开发。模型将文本映射为128维向量，可用于文本相似度分析、聚类和语义检索。支持sentence-transformers和HuggingFace两种调用方式，配备完整的使用示例和文档。通过CosineSimilarityLoss训练优化，在保持高效处理能力的同时确保了模型的轻量化。

sbert-all-MiniLM-L6-with-pooler - 基于MiniLM的384维句子向量化模型

ONNX特征提取Github向量嵌入语义搜索Huggingface开源项目模型sentence-transformers

sbert-all-MiniLM-L6-with-pooler基于sentence-transformers框架开发，将文本映射为384维向量表示。该模型在10亿对句子数据集上完成训练，可应用于文本聚类和语义搜索等场景。模型通过Hugging Face Optimum实现，支持便捷的特征提取功能。

multi-qa-mpnet-base-dot-v1 - 基于自监督对比学习的句子语义搜索模型

句子嵌入对比学习开源项目sentence-transformersGithub模型Huggingface语义搜索句子相似度

该模型用于提升语义搜索能力，将句子和段落映射至768维向量空间，达成高效信息检索。训练依托逾2.15亿问答对，覆盖丰富数据集与平台。模型应用CLS池化与点积相似度评估，适合处理有限文本语义匹配，同时支持sentence-transformers与HuggingFace Transformers两种使用方式，满足不同开发者需求。

msmarco-distilbert-base-v3 - 基于DistilBERT的文本向量化模型支持语义搜索与文本聚类

向量映射GithubDistilBert语义搜索自然语言处理Huggingface开源项目模型sentence-transformers

msmarco-distilbert-base-v3是一个文本向量化模型，可将文本转换为计算机可理解的向量形式。基于sentence-transformers框架开发，主要应用于文本相似度计算、语义搜索和文本聚类等场景。该模型采用轻量级的DistilBERT架构，在保持性能的同时提高了处理效率。

paraphrase-TinyBERT-L6-v2 - 轻量级句子嵌入模型支持语义搜索与文本聚类

TinyBERTGithub模型自然语言处理sentence-transformers语义搜索Huggingface开源项目句子嵌入

paraphrase-TinyBERT-L6-v2是基于sentence-transformers的句子嵌入模型，将句子和段落映射到768维密集向量空间。模型采用轻量级架构，主要应用于语义搜索和文本聚类。支持通过sentence-transformers或HuggingFace Transformers库进行调用，适用于计算资源受限的应用场景。

colbertv2-camembert-L4-mmarcoFR - 轻量级法语语义检索模型支持高效文本匹配

mMARCO法语模型GithubColBERT模型RAGatouille语义搜索Huggingface开源项目

该法语语义检索模型采用轻量级设计，通过token级别编码实现文本匹配。模型在mMARCO-fr数据集评测中取得91.9%的召回率，参数量为54M。支持RAGatouille和colbert-ai框架集成，可用于构建法语搜索系统。

all-MiniLM-L12-v1 - 基于MiniLM的句子向量化与语义搜索模型

机器学习句子向量Github自然语言处理语义搜索Huggingface开源项目模型sentence-transformers

all-MiniLM-L12-v1是一个开源的句子向量化模型，基于MiniLM架构开发。该模型通过10亿对句子数据训练而成，可将文本转化为384维向量表示，广泛应用于文本聚类、语义检索等场景。模型支持多种调用方式，兼容sentence-transformers和HuggingFace框架，为开发者提供便捷的文本向量化解决方案。

msmarco-distilbert-base-dot-prod-v3 - 基于DistilBERT的向量化文本映射与相似度计算模型

Githubsentence-transformers句子相似度向量嵌入开源项目自然语言处理语义搜索Huggingface模型

msmarco-distilbert-base-dot-prod-v3是一个开源的sentence-transformer模型，通过将文本映射为768维向量实现语义表示。模型采用点积方法计算文本相似度，支持语义搜索和文本聚类功能。集成sentence-transformers框架，可快速部署并应用于实际场景。该模型在句子嵌入基准测试中表现出色，适用于多种自然语言处理任务。

ko-sbert-nli - 基于SBERT架构的韩语语义相似度模型实现文本向量化

文本嵌入Githubsentence-transformers开源项目自然语言处理语义搜索Huggingface韩语模型模型

该模型基于sentence-transformers框架，将韩语文本转化为768维向量。经KorNLI数据集训练，在KorSTS评估中获83.16%相关性。适用于句子编码、语义搜索和文本聚类，支持Python接口和pip安装。

all-MiniLM-L6-v1 - 基于MiniLM的神经网络句子编码模型

语义相似度语义搜索开源项目自然语言处理模型Huggingface句向量sentence-transformersGithub

all-MiniLM-L6-v1是基于transformer架构的句子编码模型，能将文本转换为384维向量表示。该模型在10亿规模的句子数据集上采用对比学习方法训练，适用于文本聚类和语义检索等自然语言处理任务。模型同时支持sentence-transformers和Hugging Face两个主流框架，便于开发者快速集成和部署。

paraphrase-distilroberta-base-v2 - DistilRoBERTa句子向量模型用于文本相似度和语义分析

语义搜索向量嵌入开源项目自然语言处理模型深度学习Huggingfacesentence-transformersGithub

paraphrase-distilroberta-base-v2是一个轻量级句子转换模型，将文本映射至768维向量空间。该模型适用于句子相似度计算和文本聚类，支持sentence-transformers和HuggingFace Transformers库集成。模型采用平均池化处理词嵌入，提供完整架构和评估基准，在保持性能的同时优化了模型大小。

PatentSBERTa - 基于SBERT的专利文本相似度与分类深度学习模型

Github模型语义搜索开源项目HuggingfacePatentSBERTa句子转换器专利分类自然语言处理

PatentSBERTa是一个基于sentence-transformers的深度学习模型，用于专利文本分析和分类。模型将专利文本映射为768维向量，实现专利文档的语义搜索和聚类分析。通过SBERT技术计算专利间相似度，支持sentence-transformers和HuggingFace Transformers两种框架调用。

ko-sroberta-nli - 韩语句子语义嵌入的开源模型

ko-sroberta-nli句子相似度语义搜索模型Github韩国语开源项目句子嵌入Huggingface

ko-sroberta-nli模型通过将韩语文本转换为768维向量，支持多种自然语言处理任务如聚类和语义搜索。它在KorNLI和KorSTS数据集上的评估结果值得关注，且允许在不使用sentence-transformers时结合Hugging Face Transformers进行操作，实现灵活的词嵌入应用。这款工具具备便捷的安装和操作，可高效提升韩语语义处理能力。

roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn - 西班牙语语义搜索和问答优化模型

Githubsentence-transformers句子相似度西班牙语开源项目自然语言处理语义搜索Huggingface模型

该模型是基于roberta-base-bne进行微调，专为西班牙语问答场景优化。通过将句子和段落转换为768维的密集向量空间，适用于语义搜索和文本聚类等任务。使用MS-MARCO数据集的西班牙语翻译版进行训练，尤其适合处理西班牙语问题。输入文本超过512个词片段时会自动截断，旨在提供精确的问答性能。

相关文章

Article Cover

CLIP-Retrieval: 构建高效的多模态语义检索系统

Article Cover

txtai: 一个强大的开源嵌入式数据库和语言模型工作流框架

Article Cover

SGPT: 基于GPT的语义搜索句子嵌入

Article Cover

Jarvis: 为Joplin打造的智能AI助手插件

Article Cover

基于Next.js、Pinecone和Langchain构建语义搜索应用

Article Cover

IntelliNode：统一访问各种AI模型的强大工具

Article Cover

深入探讨基于OpenAI和Pinecone的语义搜索引擎实现

Article Cover

Semantra: 一款强大的语义搜索工具

Article Cover

LLM-Search: 革新本地文档检索的高级RAG系统

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号