#信息检索

terrier-core - 开源大规模文档检索引擎平台
Terrier搜索引擎信息检索开源软件文本检索Github开源项目
terrier-core是一个开源搜索引擎平台,专为大规模文档集合设计。它提供先进的索引和检索功能,支持快速开发和评估大规模检索应用。该平台兼容TREC和CLEF测试集,适用于文本检索研究。最新版本集成Python接口PyTerrier,便于在Jupyter或Colab环境中进行实验。
FlexNeuART - 经典和神经网络信息检索的灵活框架
FlexNeuART信息检索神经网络模型排序模型实验框架Github开源项目
FlexNeuART是一个轻量级模块化的信息检索框架,适用于研究、教育和评估。该框架支持多种检索方式,包括密集、稀疏和混合检索,并提供多字段多级正向索引功能。FlexNeuART集成了先进的神经网络和传统模型,支持多GPU训练和推理,以及集成学习。通过Python API,用户可以方便地使用检索器和排序器。在MS MARCO文档排序任务中,FlexNeuART展现了优秀的性能,为信息检索领域的研究和应用提供了灵活而强大的工具。
retriv - Python实现的多功能搜索引擎库
retriv搜索引擎信息检索稀疏检索密集检索Github开源项目
retriv是一个Python搜索引擎库,支持稀疏、密集和混合检索模式。它利用Numba进行向量运算加速,整合了PyTorch、Transformers和Faiss等工具,实现了高效的检索功能。该库提供自动调优,支持多语言处理,并可通过简单的API快速构建搜索系统。
pisa - 高效率大规模文本搜索引擎
PISA搜索引擎倒排索引文本检索信息检索Github开源项目
PISA是一款开源的高性能文本搜索引擎,专门面向大规模文档集合。该引擎使用C++开发,具备解析、索引和分片等功能,并实现了多种索引压缩方法和查询处理算法。PISA支持构建倒排索引、执行布尔查询和文档排序,适用于信息检索研究及通用搜索系统。它可以处理包含5000万网页文档的大型语料库,并在毫秒级别内返回搜索结果,为研究人员提供了高效的实验平台。
ir_datasets - 统一信息检索数据集接口的Python工具
ir_datasets信息检索数据集Python包文档检索Github开源项目
ir_datasets是一个Python工具包,为信息检索领域的多种数据集提供统一接口。它可自动下载和处理公开数据集,并为非公开数据集提供获取指南。该工具支持Python和命令行使用,能处理大规模数据集,并修正已知问题。通过快速随机文档访问和灵活迭代切片等功能,ir_datasets简化了信息检索研究中的数据处理流程。
ranx - Python高性能排序评估库 适用于信息检索和推荐系统
ranx信息检索推荐系统评估指标融合算法Github开源项目
ranx是一个高性能Python排序评估库,专为信息检索和推荐系统设计。它利用Numba实现快速向量运算和自动并行,提供用户友好的接口进行系统评估和比较。ranx支持统计检验、LaTeX表格导出,以及多种融合算法和归一化策略。此外,ranx还提供自动融合优化功能,并配有预计算运行库ranxhub,方便进行模型比较。
awesome-vector-database - 高维向量搜索与数据库技术资源全面指南
向量数据库高维搜索近似最近邻产品量化信息检索Github开源项目
本列表精选高维向量搜索和数据库领域的优质资源,包括主流向量数据库服务、开源实现、性能评测工具、学术会议等。内容全面涵盖技术前沿,定期更新,是研究和应用向量搜索技术的重要参考。该资源列表汇集了该领域的前沿技术和工具,为研究人员和开发者提供全面的参考,紧跟最新发展动态。
all_datasets_v3_mpnet-base - 基于MPNet的高效句子和段落编码模型
开源项目句子相似性模型对比学习信息检索Huggingface句向量sentence-transformersGithub
该模型利用sentence-transformers,通过microsoft/mpnet-base预训练模型和自监督对比学习目标进行微调,将句子和段落有效编码至768维度向量空间,适用于信息检索、语义搜索和聚类任务,尤其是在句子相似度计算中有较好表现。微调时,使用了超过10亿对的句子数据,并在TPU v3-8环境下进行了920k步训练,采用AdamW优化器和对比损失。此外,在无sentence-transformers库的情况下,通过特定的池化操作仍可实现相似的编码效果,代码实现简单易用。
ms-marco-MiniLM-L-6-v2 - 高性能跨编码器模型用于信息检索和文本排序
Cross-Encoder模型信息检索MS MarcoGithub模型性能Huggingface开源项目自然语言处理
ms-marco-MiniLM-L-6-v2是一款针对MS Marco段落排序任务开发的跨编码器模型。该模型在信息检索领域表现卓越,能够高效编码和排序查询与文本段落。在TREC Deep Learning 2019和MS Marco Passage Reranking数据集评测中,模型展现出优异性能,NDCG@10和MRR@10分别达到74.30和39.01。ms-marco-MiniLM-L-6-v2兼顾效率与准确性,每秒可处理1800个文档,为信息检索应用提供了实用解决方案。
ms-marco-MiniLM-L-4-v2 - MS Marco跨编码器模型优化信息检索和段落排序效率
模型评估Cross-EncoderHuggingface模型信息检索Github开源项目自然语言处理MS Marco
ms-marco-MiniLM-L-4-v2是一款针对MS Marco段落排序任务优化的跨编码器模型。在TREC DL 19和MS Marco开发集评测中,该模型的NDCG@10和MRR@10分别达到73.04和37.70,展现出优秀性能。它适用于查询-段落匹配和重排序等信息检索任务,每秒可处理2500个文档,在效率和性能间取得良好平衡。研究人员可通过Transformers或SentenceTransformers库轻松应用此模型。
e5-large-v2 - 多语言文本任务的高性能句子嵌入模型
Sentence TransformersHuggingface模型信息检索机器学习模型Github开源项目自然语言处理文本分类
e5-large-v2是一款针对多语言文本任务优化的句子嵌入模型。在MTEB基准测试中,该模型在分类、检索和聚类等多项任务上展现出优秀性能。e5-large-v2能有效处理包括英语在内的多种语言,为自然语言处理领域提供了强大的句子表示能力。该模型可应用于改进文本相似度计算、信息检索等多种实际场景。
dpr-question_encoder-single-nq-base - 基于BERT的开放域问答问题编码器
模型BERTGithub开源项目Huggingface信息检索DPR自然语言处理问答系统
这是一个基于BERT的问题编码器模型,为开放域问答任务设计。模型通过自然问题数据集训练,可将问题映射至低维向量空间,实现高效文本检索。它可与其他DPR模型组合构建完整问答系统,在多个基准测试中表现出色。然而,使用时需注意潜在偏见,不适用于生成事实性内容。该模型为研究人员和开发者提供了开放域问答的有力工具。
ms-marco-TinyBERT-L-2-v2 - MS Marco跨编码器模型实现高效文本检索与重排序
Cross-EncoderHuggingface模型信息检索TransformersGithub开源项目MS Marco句子相似度
ms-marco-TinyBERT-L-2-v2是一款基于MS Marco Passage Ranking任务训练的跨编码器模型。该模型专注于信息检索和文本重排序,能够高效编码查询和文档段落并评估相关性。在TREC Deep Learning 2019和MS Marco数据集上表现卓越,NDCG@10达到69.84,MRR@10达到32.56。模型提供多个版本,在性能和速度间取得平衡,每秒可处理9000个文档,适用于不同应用场景。
contriever - 高效无监督密集信息检索的对比学习模型
无监督学习模型Contriever信息检索GithubHuggingFaceHuggingface开源项目对比学习
Contriever是Facebook Research开发的无监督密集信息检索模型,基于对比学习方法训练。无需标注数据即可生成高质量文本嵌入,可用于信息检索、问答系统等NLP任务。该模型已集成至HuggingFace Transformers库,通过添加平均池化操作即可获得句子嵌入。Contriever展示了无监督学习在自然语言处理领域的应用前景。
splade-cocondenser-ensembledistil - SPLADE模型优化段落检索的稀疏神经信息检索
模型文本检索SPLADEGithub深度学习Huggingface开源项目稀疏神经网络信息检索
SPLADE CoCondenser EnsembleDistil是一种先进的段落检索模型,在MS MARCO开发集上展现出卓越性能,MRR@10达38.3,R@1000达98.3。该模型整合了查询扩展、文档扩展和词袋等技术,并通过知识蒸馏和硬负样本采样提升了稀疏神经信息检索模型的效果。研究人员可将其应用于相关信息检索任务,更多技术细节可参考相关论文。
ms-marco-electra-base - ELECTRA跨编码器模型提升MS Marco信息检索效率
模型GithubMS Marco开源项目Huggingface信息检索模型性能自然语言处理Cross-Encoder
该模型是基于ELECTRA架构的跨编码器,专为MS Marco段落排序任务设计。其主要功能是高效编码查询和段落,用于信息检索的检索和重排序。模型在TREC Deep Learning 2019数据集上达到71.99的NDCG@10分数,MS Marco开发集上MRR@10为36.41,处理速度为每秒340文档。这些指标显示该模型在性能和效率方面达到了良好平衡。
jina-embeddings-v3 - 多语言文本嵌入模型支持超过100种语言处理
模型多语言模型开源项目Huggingface信息检索特征提取transformersGithub句子相似度
jina-embeddings-v3是一个多语言文本嵌入模型,支持超过100种语言的处理。该模型在句子相似度和检索任务中表现优异,能生成高质量的文本嵌入。在MTEB基准测试中,它在多个语言的相关任务上取得了优异成绩。适用于信息检索、文本分类和语义搜索等多种自然语言处理应用。模型的多语言能力使其成为处理跨语言NLP任务的理想选择。
ms-marco-MiniLM-L-12-v2 - 跨编码器模型实现高效信息检索与段落排序
Cross-Encoder模型信息检索SentenceTransformersMS MarcoGithubHuggingface开源项目自然语言处理
ms-marco-MiniLM-L-12-v2是为MS Marco段落排序任务开发的跨编码器模型。该模型在信息检索领域表现优异,能够高效编码和排序查询与段落。在TREC Deep Learning 2019和MS Marco Passage Reranking数据集上,模型分别达到74.31的NDCG@10和39.02的MRR@10。每秒处理960个文档的速度使其在准确性和效率间实现了良好平衡,适用于各类信息检索应用场景。
instructor-large - 多语言多任务文本嵌入模型
模型开源项目文本嵌入信息检索HuggingfaceGithubINSTRUCTOR句子相似度文本分类
INSTRUCTOR是一种基于T5架构的文本嵌入模型,支持多语言和多任务场景。该模型在句子相似度、文本分类、信息检索等任务中表现优异,适用于提示检索和文本重排序等应用。INSTRUCTOR在多项基准测试中获得了出色成绩,为自然语言处理提供了一个多功能的解决方案。
baidu-ultr_uva-bert_ips-pointwise - 基于逆向倾向评分的Baidu-ULTR排序模型
模型排序模型Baidu-ULTR开源项目Huggingface信息检索机器学习点击数据Github
该项目是基于Baidu-ULTR数据集训练的MonoBERT交叉编码器,采用逆向倾向评分(IPS)方法缓解点击数据中的位置偏差。模型在专家注释和用户点击测试集上评估了排序和点击预测性能,并提供了使用示例。这一开源模型可应用于信息检索领域的研究和实践。
ms-marco-MiniLM-L-2-v2 - 基于MS Marco训练的跨编码器模型实现高效文本排序
Cross-EncoderHuggingface模型性能模型信息检索Github开源项目自然语言处理MS Marco
这是一个基于MS Marco Passage Ranking任务训练的跨编码器模型。主要用于信息检索领域,通过对查询和候选段落编码实现文本排序。模型在TREC Deep Learning 2019和MS Marco Passage Reranking数据集上展现出优秀性能,NDCG@10和MRR@10指标表现突出。支持Transformers和SentenceTransformers两种调用方式,适用于多种应用场景。
MedCPT-Article-Encoder - 生物医学文章嵌入模型
模型语义搜索MedCPTGithubPubMed生物医学文本嵌入开源项目Huggingface信息检索
MedCPT-Article-Encoder是一个生物医学文章嵌入模型,通过255M对查询-文章数据预训练而成。该模型能有效捕捉生物医学文本的语义信息,适用于文章搜索、聚类等任务。在多个零样本生物医学信息检索数据集上,MedCPT-Article-Encoder展现了出色的性能。这一工具可帮助研究人员和开发者提高生物医学文献的检索和分析效率。
stella_en_1.5B_v5 - 先进的英语语义相似度和文本分类模型
Huggingface模型信息检索GithubMTEB聚类开源项目文本分类句子相似度
stella_en_1.5B_v5是一个专注于英语的语义相似度模型,在多项自然语言处理任务中表现出色。该模型在文本分类、信息检索、文本聚类和语义相似度评估等领域展现了优秀性能,特别是在亚马逊评论分类和问答检索任务中取得了显著成果。模型在多个标准数据集上的稳定表现,使其成为处理复杂英语语言任务的有力工具。
xiaobu-embedding-v2 - 中文语义嵌入模型适用于广泛NLP任务
模型开源项目Huggingface信息检索语义相似度GithubMTEB句子嵌入文本分类
xiaobu-embedding-v2是一款中文语义嵌入模型,在多项自然语言处理任务中表现出色。该模型在文本相似度、分类、聚类、重排序和检索等方面均有良好表现,尤其在MTEB基准测试中成绩突出。这个模型可应用于问答系统、搜索优化和情感分析等多种实际场景。
dpr-ctx_encoder-multiset-base - 基于BERT的开放域问答上下文编码模型
模型BERT开源项目文本编码信息检索HuggingfaceDPRGithub问答系统
该模型采用BERT架构,经由Natural Questions、TriviaQA等多个数据集训练而成。它能将文本段落高效编码为低维向量,是实现开放域问答的关键技术。作为密集段落检索(DPR)系统的重要组成部分,该模型在多个问答基准上取得了优异成绩,推动了开放域问答技术的发展。
stella-base-en-v2 - 多任务英语文本嵌入模型用于自然语言处理
特征提取Huggingface模型信息检索Github开源项目sentence-transformers文本分类句子相似度
stella-base-en-v2是一个英语文本嵌入模型,在MTEB基准测试的多个自然语言处理任务中展现出优异性能。这些任务包括文本分类、检索、聚类和语义相似度等。该模型适用于信息检索、问答系统和文本分析等多种应用场景。其特点是在多样化任务中保持较高准确率,提供了一个多功能的文本处理解决方案。
splade-v3 - SPLADE-v3稀疏神经信息检索模型的最新进展
模型文本检索信息检索SPLADEGithub开源项目Huggingface机器学习自然语言处理
SPLADE-v3是SPLADE系列的最新稀疏神经信息检索模型,基于SPLADE++SelfDistil优化而来。该模型采用KL散度和MarginMSE混合损失函数,每次查询选取8个负样本进行训练。在性能方面,SPLADE-v3在MS MARCO开发集上达到40.2的MRR@10分数,BEIR-13测试中获得51.7的平均nDCG@10。这一成果为稀疏神经信息检索领域树立了新标准。研究人员可以通过GitHub平台获取并应用SPLADE-v3模型,以提升信息检索效果。
ms-marco-TinyBERT-L-2 - 针对MS Marco段落排序优化的TinyBERT-L-2跨编码器
Cross-Encoder模型信息检索MS MarcoGithub开源项目Huggingface机器学习自然语言处理
ms-marco-TinyBERT-L-2是一个为MS Marco段落排序任务优化的跨编码器模型。在TREC Deep Learning 2019和MS Marco段落重排任务中,它的NDCG@10和MRR@10分别达到69.84和32.56。模型每秒可处理9000个文档,为信息检索提供高效准确的解决方案。研究人员可通过Transformers或SentenceTransformers库使用该模型进行查询-段落对的相关性评分。
NoInstruct-small-Embedding-v0 - 小型嵌入模型在MTEB基准测试中展现卓越性能
模型文本分类嵌入模型相似度计算Githubsentence-transformersHuggingface开源项目信息检索
NoInstruct-small-Embedding-v0是一个小型嵌入模型,在MTEB基准测试中展现出优秀性能。该模型在文本相似度、分类和检索任务上表现突出,特别是在亚马逊评论分类中。基于sentence-transformers库开发,支持特征提取、句子相似度计算等多种NLP任务。在多个数据集上的出色表现体现了其在实际应用中的潜力。
bi-encoder_msmarco_bert-base_german - 德语语义搜索和文档检索的先进模型 基于MSMARCO数据集训练
模型BERTGithub开源项目Huggingface信息检索文档检索语义搜索MSMARCO
这个模型专为德语语义搜索和文档检索设计。它使用机器翻译的MSMARCO数据集训练,结合硬负样本和Margin MSE损失,在非对称搜索任务中达到了先进水平。模型在germandpr-beir基准测试的NDCG指标上表现出色,优于其他多语言模型。它与Sentence Transformer库兼容,可广泛应用于各类信息检索任务。
simlm-msmarco-reranker - SimLM预训练的高性能密集段落检索模型
模型GithubSimLM预训练模型开源项目Huggingface密集段落检索信息检索自然语言处理
simlm-msmarco-reranker模型采用简单的瓶颈架构,通过自监督预训练压缩段落信息。在MS-MARCO等数据集上表现优异,超越ColBERTv2等多向量方法。该模型仅需无标签语料库即可训练,适用于缺乏标记数据的场景。研究人员可以使用此模型计算查询和段落的相关性得分,应用于信息检索和文本排序任务。
Solon-embeddings-large-0.1 - 法语嵌入模型Solon在多项自然语言处理任务中表现优异
模型信息检索法语嵌入模型Github文本相似度MTEBHuggingface开源项目自然语言处理
Solon-embeddings-large-0.1是一个法语嵌入模型,在句子相似度、聚类、重排序、检索和分类等多项自然语言处理任务中表现出色。该模型可应用于文本分类、信息检索和语义相似度计算等领域,为法语自然语言处理提供了有力支持。
ms-marco-MiniLM-L-6-v2 - MiniLM-L-6跨编码器模型提升MS Marco信息检索效率
模型交叉编码器SentenceTransformersMS MarcoGithub模型性能Huggingface开源项目信息检索
ms-marco-MiniLM-L-6-v2是一个针对MS Marco信息检索任务优化的跨编码器模型。在TREC Deep Learning 2019和MS Marco Passage Reranking数据集上,其NDCG@10和MRR@10分别达到74.30和39.01。模型每秒处理1800个文档,平衡了性能和效率。基于SentenceTransformers库,该模型可轻松集成到信息检索系统中,用于查询-段落相关性排序。
acge_text_embedding - 高性能中文文本嵌入模型,提升语义相似度和检索效果
文本嵌入Huggingface模型信息检索Github语义相似度MTEB开源项目sentence-transformers
acge_text_embedding是一个针对中文自然语言处理优化的文本嵌入模型。该模型在MTEB基准测试中表现优异,尤其在语义相似度计算和信息检索任务上成绩突出。它还在文本分类等多个中文NLP任务中展现出优秀性能,为中文自然语言处理应用提供了高效的文本表示能力。
efficient-splade-VI-BT-large-doc - SPLADE模型实现高效文档检索与精准排序
模型SPLADEGithub效率优化检索模型文档编码器Huggingface开源项目信息检索
SPLADE模型是一种针对文档检索的高效架构,采用查询和文档推理分离设计。该模型在MS MARCO开发集上达到38.0 MRR@10和97.8 R@1000的性能,同时将推理延迟降至0.7毫秒。它在保持与先进神经排序器相近效果的同时,大幅缩短了延迟,接近传统BM25的速度,为文档检索领域提供了平衡效率与准确性的新方案。
efficient-splade-VI-BT-large-query - SPLADE模型优化文档检索速度和精确度
Huggingface模型SPLADE信息检索Github开源项目效率优化检索系统神经网络模型
efficient-splade-VI-BT-large-query是一款高效的文档检索SPLADE模型。该模型采用查询和文档推理分离架构,在MS MARCO数据集上实现38.0 MRR@10和97.8 R@1000的性能,查询推理延迟仅0.7毫秒。通过L1正则化和FLOPS正则化等技术,模型在保持接近先进单阶段神经排序器性能的同时,将延迟控制在与BM25相近水平,实现了效率与性能的平衡。