#语义搜索

wikipedia-semantic-search - 多语言维基百科语义搜索引擎和RAG聊天机器人
向量索引维基百科Upstash Vector语义搜索RAG聊天机器人Github开源项目
该项目利用Upstash Vector索引数百万篇维基百科文章,构建了支持11种语言的语义搜索引擎和RAG聊天机器人。通过BGE-M3嵌入模型实现多语言支持,结合Upstash Vector实现高效向量存储和查询。项目展示了跨语言语义搜索能力,并借助Upstash RAG Chat SDK实现智能聊天功能,为开发者提供多语言信息检索和交互平台。
all-MiniLM-L6-v2 - 高性能句子嵌入模型实现多种NLP任务
自然语言处理sentence-transformers语义搜索开源项目句子嵌入Github迁移学习Huggingface模型
all-MiniLM-L6-v2是一个基于sentence-transformers的句子嵌入模型。它能将文本映射至384维向量空间,在超11亿对句子上微调而成。该模型适用于语义搜索、聚类等多种NLP任务,采用对比学习方法生成高质量嵌入。通过sentence-transformers或Hugging Face Transformers库,可轻松集成到各类应用中。在多项基准测试中,all-MiniLM-L6-v2展现出优异性能。
paraphrase-multilingual-mpnet-base-v2 - 跨语言句子向量化模型支持聚类和语义检索
模型Github多语言模型开源项目文本嵌入Huggingface语义搜索sentence-transformers自然语言处理
paraphrase-multilingual-mpnet-base-v2是一个基于sentence-transformers的多语言句子嵌入模型,支持50多种语言。它将句子和段落映射为768维向量,适用于聚类和语义搜索。模型易于使用,通过pip安装即可快速集成。在Sentence Embeddings Benchmark上表现出色,采用XLMRobertaModel和平均池化层结构,可有效处理不同长度的文本输入。
msmarco-bert-base-dot-v5 - BERT语义搜索模型 用于高效文本编码和相似度计算
模型BERTGithub开源项目HuggingfaceMS MARCO数据集嵌入向量sentence-transformers语义搜索
msmarco-bert-base-dot-v5是一个语义搜索模型,基于sentence-transformers框架开发。该模型将文本映射到768维向量空间,在MS MARCO数据集上训练而成。它能高效进行文本编码和相似度计算,支持通过sentence-transformers或HuggingFace Transformers库集成使用。这个模型适用于语义搜索等多种自然语言处理任务,为开发者提供了便捷的文本分析工具。
jina-colbert-v2 - 多语言信息检索的新一代智能模型
模型语义搜索嵌入模型ColBERTGithub神经信息检索多语言检索开源项目Huggingface
jina-colbert-v2是一个多语言信息检索模型,支持128种语言,采用马特里奥什卡嵌入技术实现效率与精度的平衡。该模型具有8192个输入上下文标记和标记级嵌入的可解释性。在BEIR、MS MARCO等基准测试中,jina-colbert-v2展现出优于前代模型和其他主流方案的检索性能。
pubmedbert-base-embeddings - 专为医学文献优化的嵌入模型 支持语义搜索和RAG应用
模型Github医学文献开源项目Huggingface自然语言处理嵌入向量语义搜索PubMedBERT
PubMedBERT Embeddings是一个专门针对医学文献优化的嵌入模型。它基于PubMedBERT进行微调,将句子和段落映射到768维向量空间。该模型在PubMed标题-摘要对上训练,相比通用模型能为医学文献生成更高质量的嵌入向量。它支持聚类、语义搜索等应用,可通过txtai、Sentence-Transformers或Hugging Face Transformers等框架轻松集成。在多个PubMed相关评估数据集上,该模型展现出优秀的性能表现。
msmarco-MiniLM-L12-cos-v5 - 用于语义搜索的句子转换和嵌入模型
MiniLMHuggingface模型MS MARCOGithub开源项目自然语言处理句子转换器语义搜索
msmarco-MiniLM-L12-cos-v5是一个专为语义搜索设计的句子转换模型,能将文本映射到768维向量空间。该模型在MS MARCO数据集上训练,支持通过sentence-transformers和HuggingFace Transformers两种方式使用。它生成规范化嵌入,适用于多种相似度计算方法,可用于开发高效的语义搜索应用。
st-codesearch-distilroberta-base - 基于DistilRoBERTa的代码搜索嵌入模型
模型语义搜索代码搜索DistilRoBERTaGithub向量嵌入sentence-transformersHuggingface开源项目
st-codesearch-distilroberta-base是一个基于DistilRoBERTa的句子转换器模型,可将文本映射到768维向量空间。该模型在code_search_net数据集上训练,专门用于文本到代码的搜索任务。它支持语义搜索和聚类等应用,并提供简单的API接口。用户可以利用这个模型生成文本嵌入,实现代码搜索和相似度比较等功能。这个预训练模型为代码检索和自然语言处理任务提供了有力工具。
specter2_base - 科学文献嵌入模型支持多任务适配
嵌入向量科学文献Huggingface模型SPECTER2Github开源项目自然语言处理语义搜索
SPECTER2是一个生成科学文献嵌入的开源模型。它基于600万篇论文引用关系训练,通过适配器支持分类、回归、近似检索和即时搜索等任务。该模型在SciRepEval和MDCR等基准测试中表现出色,为文献检索、分类和推荐等应用提供高质量的文献表示。
S-PubMedBert-MS-MARCO - 医疗文本信息检索专用BERT模型
模型Github开源项目Huggingfacesentence-transformers语义搜索PubMedBERT医疗文本处理MS-MARCO
S-PubMedBert-MS-MARCO是一个针对医疗和健康文本领域优化的信息检索模型。它基于PubMedBERT,并通过MS-MARCO数据集微调,可将文本映射为768维向量。该模型适用于语义搜索和文本聚类,支持Sentence-Transformers和HuggingFace Transformers框架,为医疗文本分析提供了有效工具。
sentence-t5-large - 将句子和段落转化为768维向量的自然语言处理模型
模型Github开源项目文本编码Huggingfacesentence-transformers语义搜索句子相似度向量空间
sentence-t5-large是一个基于sentence-transformers的自然语言处理模型,能够将句子和段落转换为768维向量。这个模型在句子相似性任务中表现出色,但在语义搜索方面效果一般。它是由TensorFlow的st5-large-1模型转换而来,采用T5-large模型的编码器,并以FP16格式存储权重。使用时需要sentence-transformers 2.2.0或更高版本。该模型在句子嵌入基准测试中取得了良好成绩,为各种自然语言处理任务提供了有力支持。
gtr-t5-large - 基于T5-large的语义搜索模型 实现句子到768维向量的映射
T5模型模型向量嵌入Github开源项目Huggingface自然语言处理sentence-transformers语义搜索
gtr-t5-large是一个基于sentence-transformers框架的语义搜索模型,能够将句子和段落映射到768维的向量空间。该模型由TensorFlow版本的gtr-large-1转换而来,仅使用T5-large模型的编码器部分,并以FP16格式存储权重。gtr-t5-large提供简便的接口,可轻松生成文本嵌入,适用于多种自然语言处理任务,如语义相似度计算和信息检索。
gtr-t5-base - 基于T5的高效句子向量模型用于语义搜索
T5模型模型向量嵌入Github开源项目Huggingface自然语言处理sentence-transformers语义搜索
gtr-t5-base是一个基于sentence-transformers框架的语义搜索模型。它将句子和段落映射到768维向量空间,专门针对语义搜索任务优化。该模型由T5-base编码器转换而来,能生成高质量句子嵌入,适用于多种NLP任务。使用简便,仅需安装sentence-transformers库。在句子嵌入基准测试中表现优异,是语义相似度计算和信息检索的有效工具。
distiluse-base-multilingual-cased - 多语言句子嵌入模型支持语义搜索和文本相似度分析
Huggingface模型Github开源项目sentence-transformers向量嵌入多语言模型语义搜索句子相似度
distiluse-base-multilingual-cased是基于sentence-transformers的多语言句子嵌入模型,将句子和段落映射至512维向量空间。该模型支持多语言处理,适用于聚类、语义搜索和跨语言文本相似度分析。它提供高质量的句子嵌入,并可通过简洁的Python代码实现句子编码,为自然语言处理任务提供有力支持。
bi-encoder_msmarco_bert-base_german - 德语语义搜索和文档检索的先进模型 基于MSMARCO数据集训练
模型BERTGithub开源项目Huggingface信息检索文档检索语义搜索MSMARCO
这个模型专为德语语义搜索和文档检索设计。它使用机器翻译的MSMARCO数据集训练,结合硬负样本和Margin MSE损失,在非对称搜索任务中达到了先进水平。模型在germandpr-beir基准测试的NDCG指标上表现出色,优于其他多语言模型。它与Sentence Transformer库兼容,可广泛应用于各类信息检索任务。
nli-distilroberta-base-v2 - sentence-transformers模型实现句子向量化和语义分析
模型向量嵌入Github开源项目HuggingfaceRoBERTa自然语言处理sentence-transformers语义搜索
nli-distilroberta-base-v2是一个基于sentence-transformers的句子嵌入模型,将文本映射到768维向量空间。该模型适用于聚类、语义搜索等任务,使用简单且效果出色。它支持通过几行代码生成句子嵌入,为自然语言处理提供了有力工具。
bert-base-portuguese-cased-nli-assin-2 - 提升句子相似度与语义搜索的句子转换器
模型训练Huggingfacesentence-transformersGithub开源项目语义搜索模型特征提取句向量
模型将句子和段落转换为768维向量,用于聚类和语义搜索等任务。可通过安装sentence-transformers库或直接调用HuggingFace Transformers进行操作。采用SoftmaxLoss训练,并通过EmbeddingSimilarityEvaluator评估,结合BertModel与句子池化实现高效转换。
quora-distilbert-multilingual - 跨语言句子嵌入与语义搜索解决方案
句子相似性Githubsentence-transformers开源项目特征提取Huggingface语义搜索DistilBert模型
quora-distilbert-multilingual是一款依托sentence-transformers框架的模型,可将句子和段落转换为768维的向量,从而助力于句子聚类和语义搜索。用户可以选择使用sentence-transformers库简便地安装和使用,也可利用HuggingFace Transformers手动实现句子嵌入。该模型在Sentence Embeddings Benchmark测试中表现优异,模型结构包含DistilBert变换器和平均池化操作,为句子提供高效的表示能力。
stsb-distilbert-base - 语义搜索与聚类任务的句子嵌入模型
语义搜索句子嵌入开源项目机器学习模型自然语言处理模型Huggingfacesentence-transformersGithub
此模型将句子和段落转换为768维的稠密向量,适用于语义搜索和聚类任务。然而,由于其性能已不再是最优,建议选择更优质的句子嵌入模型。如需使用,可通过安装sentence-transformers库轻松实现,或使用HuggingFace Transformers进行更高级的处理,如加入注意力掩码的平均池化。尽管模型效能下降,其架构仍有参考价值。
camembert-L4 - 精简版法语BERT模型,支持文本分类和语义搜索
Huggingface特征提取开源项目模型CamemBERT-L4Github语义搜索语言模型文本分类
CamemBERT-L4是CamemBERT模型的精简版本,通过裁剪顶部层次来提高性能。适合在文本分类、抽取式问答、语义搜索等领域进行微调,用于决策的完整句子任务,而非文本生成。支持掩码语言建模(MLM)与文本特征提取,模型参数和大小均有减少,提升了处理效率,同时保持其重要功能。
robbert-2022-dutch-sentence-transformers - RobBERT模型改进的句子相似度与特征提取工具
特征提取荷兰开源项目sentence-transformersGithub模型Huggingface句子相似性语义搜索
该项目基于KU Leuven开发的RobBERT模型,提供句子相似度与特征提取功能,支持语义搜索和文本聚类等应用场景。通过翻译和微调多种Dutch语料库,模型在荷兰语环境中表现良好。用户可以通过安装sentence-transformers或使用HuggingFace Transformers来实现模型的使用,主要功能包括将句子和段落转换为768维度密集向量,为文本分析提供准确的句子嵌入。项目中使用的数据加载与优化策略有效提升了整体性能。
sentence-transformers-e5-large-v2 - 句子向量化模型实现文本相似度检索和聚类
Huggingface模型句子嵌入embaas APIGithub开源项目sentence-transformers自然语言处理语义搜索
sentence-transformers-e5-large-v2模型是intfloat/e5-large-v2的改进版本,能将文本映射至1024维向量空间。该模型在聚类和语义搜索方面表现出色,支持通过sentence-transformers库或embaas API快速集成。模型在MTEB评测中获得优异成绩,为文本嵌入和相似度计算提供了有力支持。
stsb-bert-tiny-openvino - 基于BERT的轻量级句子相似度和语义搜索模型
开源项目语义搜索深度学习sentence-transformers模型向量编码Github自然语言处理Huggingface
stsb-bert-tiny-openvino是一个轻量级的自然语言处理模型,基于sentence-transformers框架开发。模型将文本映射为128维向量,可用于文本相似度分析、聚类和语义检索。支持sentence-transformers和HuggingFace两种调用方式,配备完整的使用示例和文档。通过CosineSimilarityLoss训练优化,在保持高效处理能力的同时确保了模型的轻量化。
sbert-all-MiniLM-L6-with-pooler - 基于MiniLM的384维句子向量化模型
ONNX特征提取Github向量嵌入语义搜索Huggingface开源项目模型sentence-transformers
sbert-all-MiniLM-L6-with-pooler基于sentence-transformers框架开发,将文本映射为384维向量表示。该模型在10亿对句子数据集上完成训练,可应用于文本聚类和语义搜索等场景。模型通过Hugging Face Optimum实现,支持便捷的特征提取功能。
multi-qa-mpnet-base-dot-v1 - 基于自监督对比学习的句子语义搜索模型
句子嵌入对比学习开源项目sentence-transformersGithub模型Huggingface语义搜索句子相似度
该模型用于提升语义搜索能力,将句子和段落映射至768维向量空间,达成高效信息检索。训练依托逾2.15亿问答对,覆盖丰富数据集与平台。模型应用CLS池化与点积相似度评估,适合处理有限文本语义匹配,同时支持sentence-transformers与HuggingFace Transformers两种使用方式,满足不同开发者需求。
msmarco-distilbert-base-v3 - 基于DistilBERT的文本向量化模型支持语义搜索与文本聚类
向量映射GithubDistilBert语义搜索自然语言处理Huggingface开源项目模型sentence-transformers
msmarco-distilbert-base-v3是一个文本向量化模型,可将文本转换为计算机可理解的向量形式。基于sentence-transformers框架开发,主要应用于文本相似度计算、语义搜索和文本聚类等场景。该模型采用轻量级的DistilBERT架构,在保持性能的同时提高了处理效率。
paraphrase-TinyBERT-L6-v2 - 轻量级句子嵌入模型支持语义搜索与文本聚类
TinyBERTGithub模型自然语言处理sentence-transformers语义搜索Huggingface开源项目句子嵌入
paraphrase-TinyBERT-L6-v2是基于sentence-transformers的句子嵌入模型,将句子和段落映射到768维密集向量空间。模型采用轻量级架构,主要应用于语义搜索和文本聚类。支持通过sentence-transformers或HuggingFace Transformers库进行调用,适用于计算资源受限的应用场景。
colbertv2-camembert-L4-mmarcoFR - 轻量级法语语义检索模型支持高效文本匹配
mMARCO法语模型GithubColBERT模型RAGatouille语义搜索Huggingface开源项目
该法语语义检索模型采用轻量级设计,通过token级别编码实现文本匹配。模型在mMARCO-fr数据集评测中取得91.9%的召回率,参数量为54M。支持RAGatouille和colbert-ai框架集成,可用于构建法语搜索系统。
all-MiniLM-L12-v1 - 基于MiniLM的句子向量化与语义搜索模型
机器学习句子向量Github自然语言处理语义搜索Huggingface开源项目模型sentence-transformers
all-MiniLM-L12-v1是一个开源的句子向量化模型,基于MiniLM架构开发。该模型通过10亿对句子数据训练而成,可将文本转化为384维向量表示,广泛应用于文本聚类、语义检索等场景。模型支持多种调用方式,兼容sentence-transformers和HuggingFace框架,为开发者提供便捷的文本向量化解决方案。
msmarco-distilbert-base-dot-prod-v3 - 基于DistilBERT的向量化文本映射与相似度计算模型
Githubsentence-transformers句子相似度向量嵌入开源项目自然语言处理语义搜索Huggingface模型
msmarco-distilbert-base-dot-prod-v3是一个开源的sentence-transformer模型,通过将文本映射为768维向量实现语义表示。模型采用点积方法计算文本相似度,支持语义搜索和文本聚类功能。集成sentence-transformers框架,可快速部署并应用于实际场景。该模型在句子嵌入基准测试中表现出色,适用于多种自然语言处理任务。
ko-sbert-nli - 基于SBERT架构的韩语语义相似度模型实现文本向量化
文本嵌入Githubsentence-transformers开源项目自然语言处理语义搜索Huggingface韩语模型模型
该模型基于sentence-transformers框架,将韩语文本转化为768维向量。经KorNLI数据集训练,在KorSTS评估中获83.16%相关性。适用于句子编码、语义搜索和文本聚类,支持Python接口和pip安装。
all-MiniLM-L6-v1 - 基于MiniLM的神经网络句子编码模型
语义相似度语义搜索开源项目自然语言处理模型Huggingface句向量sentence-transformersGithub
all-MiniLM-L6-v1是基于transformer架构的句子编码模型,能将文本转换为384维向量表示。该模型在10亿规模的句子数据集上采用对比学习方法训练,适用于文本聚类和语义检索等自然语言处理任务。模型同时支持sentence-transformers和Hugging Face两个主流框架,便于开发者快速集成和部署。
paraphrase-distilroberta-base-v2 - DistilRoBERTa句子向量模型用于文本相似度和语义分析
语义搜索向量嵌入开源项目自然语言处理模型深度学习Huggingfacesentence-transformersGithub
paraphrase-distilroberta-base-v2是一个轻量级句子转换模型,将文本映射至768维向量空间。该模型适用于句子相似度计算和文本聚类,支持sentence-transformers和HuggingFace Transformers库集成。模型采用平均池化处理词嵌入,提供完整架构和评估基准,在保持性能的同时优化了模型大小。
PatentSBERTa - 基于SBERT的专利文本相似度与分类深度学习模型
Github模型语义搜索开源项目HuggingfacePatentSBERTa句子转换器专利分类自然语言处理
PatentSBERTa是一个基于sentence-transformers的深度学习模型,用于专利文本分析和分类。模型将专利文本映射为768维向量,实现专利文档的语义搜索和聚类分析。通过SBERT技术计算专利间相似度,支持sentence-transformers和HuggingFace Transformers两种框架调用。
ko-sroberta-nli - 韩语句子语义嵌入的开源模型
ko-sroberta-nli句子相似度语义搜索模型Github韩国语开源项目句子嵌入Huggingface
ko-sroberta-nli模型通过将韩语文本转换为768维向量,支持多种自然语言处理任务如聚类和语义搜索。它在KorNLI和KorSTS数据集上的评估结果值得关注,且允许在不使用sentence-transformers时结合Hugging Face Transformers进行操作,实现灵活的词嵌入应用。这款工具具备便捷的安装和操作,可高效提升韩语语义处理能力。
roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn - 西班牙语语义搜索和问答优化模型
Githubsentence-transformers句子相似度西班牙语开源项目自然语言处理语义搜索Huggingface模型
该模型是基于roberta-base-bne进行微调,专为西班牙语问答场景优化。通过将句子和段落转换为768维的密集向量空间,适用于语义搜索和文本聚类等任务。使用MS-MARCO数据集的西班牙语翻译版进行训练,尤其适合处理西班牙语问题。输入文本超过512个词片段时会自动截断,旨在提供精确的问答性能。