#信息检索

Awesome-LLM-Long-Context-Modeling - 包含有关高效转换器、长度外推、长期内存、检索增强生成（RAG）和长上下文建模评估的论文和博客的存储库

Github开源项目大语言模型自然语言处理长文本处理信息检索Transformer优化

本仓库收集了关于高效变换器、长度外推、长期记忆、增强检索生成（RAG）及长文本建模评估的研究论文和博客，提供专业资源用于探索长上下文模型及其挑战，并讨论优化NLP模型的创新方法，适合深度语言模型和复杂文本建模研究人员及开发者。考虑到用户搜索意图的多样性，建议在SEO描述中提及项目对长文本建模从算法到实际应用的全面影响，以及其对未来研究方向的启示。

agent-search - 提升搜索代理与本地搜索能力的先进框架

Github开源项目搜索引擎信息检索AgentSearchLLM技术定制搜索

AgentSearch是一个创新框架，通过结合多家提供商的LLM技术与搜索引擎，增强搜索代理性能。支持搜索结果总结、查询生成与深度检索，还能部署个性化本地搜索解决方案，提供多样的API接入选项。

A-Guide-to-Retrieval-Augmented-LLM - 探讨检索增强大语言模型的核心要素、工作原理及实践应用的文章

Github开源项目大语言模型信息检索检索增强LLM长尾知识私有数据

本文深入探讨检索增强大语言模型（Retrieval Augmented LLM）的核心要素、工作原理及实践应用。通过结合外部信息源，该技术显著提高了模型在处理时效性强的数据、保护私有信息及应对长尾知识挑战方面的能力。文章还评估了在实际场景中该技术的效果，提供了一个关于如何有效利用检索增强大语言模型的全面视角。

awesome-azure-openai-llm - 揭示Azure OpenAI与大型语言模型（LLM）的综合功能

Github开源项目大语言模型API集成信息检索Azure OpenAI语言模型训练

提供Azure OpenAI和大型语言模型（LLM）的综合参考，包括服务与技术的详细比较和专有功能介绍。深入探讨私有网络支持、角色认证和AI内容过滤的优势，非常适合希望全面了解并运用Azure OpenAI整合服务的技术用户。

superlinked - 信息检索与特征工程的超模态向量嵌入计算框架

Github开源项目机器学习向量嵌入信息检索Superlinked特征工程

Superlinked 是一个计算框架，专注将复杂数据（如结构化和非结构化数据）转化为超模态向量嵌入，适用于RAG、搜索、推荐和分析系统。它结合了预训练模型的便利性和自定义模型的性能。该框架提供多种嵌入类型、定制编码器、组合编码器和动态参数等功能，并支持多种向量数据库，适用于实验和生产环境。

primeqa - PrimeQA：多语言问答系统的开源研究和开发平台

Github开源项目机器阅读理解信息检索PrimeQA多语言问答问题生成

PrimeQA是一个开源平台，帮助研究人员和开发人员训练先进的问答模型。用户可以在PrimeQA上复制NLP会议中的实验，下载预训练模型并应用于自定义数据。该平台支持信息检索、多语言阅读理解、问题生成及检索增强的生成技术。PrimeQA在多个排行榜中名列前茅，整合Transformers工具包以提供强大的问答功能，满足领先的研究和开发需求。

splade - 优化查询和文档检索的SPLADE稀疏模型

Github开源项目模型训练SPLADE信息检索BEIR基准

SPLADE项目使用BERT的MLM头和稀疏正则化来学习查询和文档的稀疏扩展，优化了检索性能。项目包含训练、索引和检索的代码，并支持在BEIR基准测试中评估。最新版本通过硬负样本采样、蒸馏和改进的预训练语言模型初始化，显著提升了检索效果。此外，SPLADE的稀疏表示优化了倒排索引的使用，提供了显式词汇匹配和可解释性等优点。经过优化的训练和正则化，SPLADE在域内外测试中表现优异，延迟性能与BM25相当。

GraphRAG4OpenWebUI - 高级信息检索技术在 Open WebUI 的全面集成

Github开源项目GraphRAG信息检索嵌入模型GraphRAG4OpenWebUILocal LLM

GraphRAG4OpenWebUI 为 Open WebUI 提供了一个强大而高效的信息检索系统，集成了微软研究院的 GraphRAG 技术，支持本地搜索、全球搜索和 Tavily 搜索。该项目专为需要精确和全面搜索结果的开放网络用户界面设计，并且支持本地语言模型和嵌入模型，增强了灵活性和隐私性。通过多个 API 接口，用户可以轻松实现复杂的信息检索需求。

ChatGPT-RetrievalQA - 使用ChatGPT和人类响应数据训练和评估问答检索模型

Github开源项目ChatGPT数据集信息检索训练数据答案排序

提供ChatGPT与人类响应的数据集，以训练和评估问答检索模型。数据集基于HC3公开数据，分析ChatGPT和传统检索模型在回答真实性和可靠性上的差异。项目由阿姆斯特丹大学支持，数据格式兼容MSMarco，便于研究人员使用现有脚本。

motorhead - 用于LLM聊天应用的记忆与信息检索服务器

Github开源项目API会话内存处理信息检索Motorhead

Motorhead是一个用于LLM聊天应用的记忆与信息检索服务器，通过简单易用的API接口，方便管理对话记忆和进行增量摘要，还支持文本检索。尽管该项目已停用维护，但仍提供详细的配置和部署指南，包括Docker和Azure部署，帮助开发者高效处理对话数据。

RAGatouille - 优化RAG管道的先进检索工具

Github开源项目ColBERT检索增强生成信息检索神经搜索RAGatouille

RAGatouille是一个开源的检索增强生成(RAG)工具包,专注于将先进的检索方法应用于RAG管道。它集成了ColBERT等最新研究成果,提供简单易用的API接口用于模型训练、文档索引和检索。RAGatouille的设计理念是模块化和易用性,同时保持高度可定制性。通过优化检索性能,该工具包旨在提升RAG系统的整体效果,促进信息检索技术在实际应用中的发展。

MS-MARCO-Web-Search - 大规模网络数据集推动搜索与机器学习研究进展

Github开源项目机器学习搜索引擎数据集信息检索MS MARCO Web Search

MS-MARCO-Web-Search是一个基于ClueWeb22的大规模网络数据集，包含数百万真实查询点击标签。它提供丰富的文本、视觉和语义信息，设置了嵌入模型、嵌入检索和端到端检索三个挑战任务。该数据集旨在推动机器学习和信息检索系统研究，并验证方法在大规模数据上的有效性。

ColBERT - 基于BERT的快速大规模文本检索模型

Github开源项目自然语言处理BERTColBERT信息检索向量相似度

ColBERT是一种基于BERT的检索模型，能在数十毫秒内实现大规模文本集合的高效搜索。该模型采用细粒度的上下文后期交互技术，将段落编码为令牌级嵌入矩阵，在保持检索质量的同时提高效率。ColBERT具备索引、检索和训练功能，适用于多种信息检索任务。模型提供预训练checkpoint和Python API，方便研究人员和开发者在实际项目中快速应用。

RAG_Techniques - 先进RAG技术集合优化检索增强生成系统

Github开源项目自然语言处理机器学习RAG检索增强生成信息检索

本项目汇集22种先进RAG技术，涵盖简单RAG到复杂可控代理等多种方法，包括上下文丰富、多方面过滤、融合检索和智能重排序等。这些技术旨在提高检索增强生成系统的准确性、效率和上下文丰富度，为研究人员和实践者提供全面实施指南，助力开发更高效RAG系统。

anserini - 开源可复现信息检索研究工具包

Github开源项目信息检索回归实验AnseriniLuceneMS MARCO

Anserini是基于Lucene开发的开源信息检索工具包,致力于推动可复现的学术研究。该工具包提供从索引构建到结果评估的端到端实验支持,实现了BM25、doc2query-T5、SPLADE等多种先进检索模型。Anserini可应用于各类标准IR测试集,有助于缩小信息检索研究与实际搜索应用之间的差距。

pyserini - Python信息检索工具包支持多种检索模型

Github开源项目信息检索搜索工具实验复现Pyserini索引构建

Pyserini是一个Python信息检索工具包,支持稀疏和密集表示检索。该工具包集成了Anserini和Faiss库,可用于多阶段排序的首轮检索。Pyserini提供预构建索引、查询、评估脚本等功能,方便在标准IR测试集上复现实验。它支持传统词法模型、学习型稀疏检索模型、密集检索模型及混合检索模型,并有详细的使用指南。

MemFree - 整合多源知识的智能混合搜索与问答平台

AI工具智能问答信息检索互联网搜索MemFree混合AI搜索

MemFree是一款创新的混合AI搜索平台，整合书签、笔记、文档和互联网资源，提供全面的知识管理解决方案。该平台利用GPT-4等先进AI技术，实现快速准确的信息检索和智能问答，大幅提升知识管理效率。MemFree能够智能搜索和询问书签、笔记和文档，同时结合互联网资源，作为强大的信息整合工具，为用户带来便捷高效的智能搜索体验。

AI Answer Generator - 基于GPT-4的智能问答系统即时生成详细回答

人工智能AI自然语言处理AI工具问答系统信息检索

AI Answer Generator是一款基于GPT-4技术的智能问答工具，无需注册即可免费使用。系统能够针对各类问题迅速生成准确、详细的回答，涵盖从简单事实查询到复杂分析等多种主题。这一工具适用于学生、专业人士及信息搜索者，有助于提高工作效率和学习效果。无论是一般性问题还是深度探讨，AI Answer Generator都能提供相关且有价值的信息。使用便捷，无需注册，即可体验高效智能问答服务。

Gems - AI知识管理系统轻松获取团队信息

AI工具团队协作知识管理信息检索Gems即时答案

Gems是一款创新型AI知识管理系统，能快速整合和检索团队的全部知识资源。该系统采用问答式交互，提供精准的信息摘要。Gems简化了知识管理流程，具备源头追溯功能，便于信息验证。它实现知识的自动集中化管理，无需手动整理，显著提升工作效率。作为一款高效的智能助手工具，Gems为团队提供即时、全面的知识支持。

Ubblu - 智能笔记应用助力高效创意管理和信息检索

AI工具知识管理信息检索AI笔记生产力工具Ubblu

Ubblu是一款AI驱动的笔记应用，专注于提升创造力和工作效率。该应用集成了直观的笔记系统、详细的信息卡片和智能标签功能，简化了想法和信息的捕捉、组织与检索过程。其独特的'Ask'功能实现了快速精准的信息查找，省去了繁琐的手动搜索。Ubblu还提供文档分析、概念关联和提醒设置等实用功能，为注重创作的专业人士打造了一个高效的智能工作平台。

Cambrian - 智能平台助力机器学习文献发现与理解

机器学习AI工具文献综述信息检索研究发现知识更新

Cambrian是一个面向机器学习研究人员和工程师的智能平台，旨在解决信息过载问题。该平台提供最新研究成果的发现功能，支持搜索超过240,000篇机器学习论文，并协助理解复杂细节。Cambrian还配备实时更新的论文数据库和智能分析工具，能自动化文献综述过程，有助于提高科研效率，使用户在快速发展的机器学习领域保持更新。

Casc - AI驱动的企业知识管理系统助力团队效率提升

知识库AI工具信息检索生产力工具Slack集成Casc

Casc作为一款智能知识管理系统，集成多种数据源如Google Drive、Confluence和Notion，通过AI技术自动整理企业信息。系统与Slack深度整合，提供即时问答服务，同时具备会议记录、数据安全保护和视频通话转录等功能。Casc致力于优化企业内部信息流通，显著提升团队工作效率和知识共享水平。

Niddam - 本地化AI对话与内容生成解决方案

自然语言处理AI助手AI工具内容生成任务自动化信息检索

Niddam是一款本地化AI平台，专注于保护用户隐私。它提供自然对话、内容生成、文档摘要和创意解决方案，支持多种语言模型。数据存储在本地浏览器中，无需身份验证即可使用。这个安全高效的AI工具可用于任务自动化、信息检索和研究辅助，适合各类用户使用。

pdfy.ai - AI驱动的多媒体对话平台简化信息获取与学习

人工智能AI工具文档处理信息检索数据交互pdfy.ai

pdfy.ai是一个多功能AI平台，支持与PDF、网页、音频和视频的对话交互。它提供智能问答、摘要生成和信息定位功能，有效提升信息获取和学习效率。平台适合各类用户，包括学生、研究人员和办公人员。pdfy.ai简化了数据搜索流程，使用户能够轻松访问所需知识并找到专业引用。通过实现与多种数据源的无缝对话，该工具帮助用户摆脱繁琐的信息检索过程。

AskJack - AI驱动的企业知识统一平台提升工作效率

人工智能AI工具知识管理信息检索员工生产力企业应用集成

AskJack是一个企业级知识统一平台，通过AI技术整合各类业务应用数据，为员工提供即时答案。该平台有效解决信息孤岛问题，提高工作效率，支持新员工快速入职，减少重复性问题。AskJack适用于人力资源、IT支持、客户服务等多个部门，让员工能随时获取所需信息，优化工作流程，提升整体生产力。

Athen AI - 基于AI的企业智能助手实现即时信息检索

智能助手AI工具企业管理生产力提升信息检索Athen AI

Athen AI是一款基于人工智能的企业智能助手,专注于提供即时信息检索服务。通过简单的邮件交互,Athen AI能快速搜索企业文档并在几秒内给出准确答复。该系统可与多种企业管理工具无缝集成,显著提高信息检索效率,节省员工时间。Athen AI操作简单,无需特殊培训即可上手。其持续学习优化功能能为企业提供日益精准的信息支持,有效提升整体生产力。

Recall - 智能内容摘要和知识管理系统

AI工具AI摘要知识管理信息检索学习效率内容组织

Recall作为智能内容摘要和知识管理系统，能够高效处理YouTube视频、文章和播客等多样化在线内容。系统不仅自动分类摘要，还能关联用户已保存的相关信息，揭示内容间的潜在联系。通过构建个人知识库，Recall有助于用户深入理解复杂主题，激发创新思维。该系统支持离线访问和数据导出，同时采取严格措施保护用户数据安全和隐私。

txyz.ai - 整合知识获取途径的智能研究平台

AI工具AI研究助手学术研究信息检索知识集成研发平台

txyz.ai是一个创新的研究平台，利用人工智能技术优化阅读、搜索和写作流程，显著提升研究效率。平台功能包括研究洞见即时提取、个性化论文推荐、自然语言搜索和综合研究资料库。适用于学术研究、行业研发和市场调研等领域，帮助用户高效获取知识和管理文献。作为面向未来的R&D智能平台，txyz.ai已为全球超过50万研究人员提供支持，致力于推动研究工作的智能化发展。

Smatr-AI - 快速文本摘要和智能问答的浏览器扩展

用户体验AI助手AI工具Chrome扩展信息检索文本摘要

Smatr-AI浏览器插件利用先进的自然语言处理技术，为用户提供快速文本摘要和智能问答服务。这款工具能够有效提取长篇文章的核心内容，节省阅读时间。用户可以通过点击段落旁的图标或使用右键菜单生成摘要，也可以直接向页面内容提问。Smatr-AI注重用户隐私，操作简便，响应迅速，价格合理，是提升在线阅读效率的理想选择。适用于学术研究、新闻阅读和信息收集等多种场景，帮助用户更快速、准确地获取关键信息。

TribalBase - Slack对话历史智能转化为团队知识库的智能工具

AI工具团队协作知识管理AI问答信息检索Slack助手

TribalBase是Slack集成工具，将对话历史智能转化为知识库。支持问答、摘要生成，促进团队信息共享。适合工程、销售团队及社区使用，提升问题解决效率。提供7天免费体验，助力团队将零散讨论变为有价值资源。

RetroMAE - 创新的检索导向语言模型预训练技术

Github开源项目预训练模型自然语言处理BERT信息检索RetroMAE

RetroMAE是一种创新的检索导向语言模型预训练方法。通过掩码自编码器技术，该方法在MS MARCO和BEIR等基准测试中取得了显著性能提升。项目开源了预训练模型和微调工具，并提供了详细使用说明。RetroMAE在监督检索任务中表现卓越，同时展现出优秀的零样本迁移能力，为信息检索研究带来新的突破。项目提供了多个预训练模型，包括在维基百科和图书语料上预训练的基础版本，以及在MS MARCO数据集上微调的特定版本。研究人员可以通过Hugging Face轻松加载这些模型，进行实验或进一步改进。

INTERS - 指令微调优化大型语言模型的搜索能力

Github开源项目大语言模型自然语言处理指令微调信息检索INTERS

INTERS是一个包含20个信息检索任务的指令微调数据集，旨在提升大型语言模型的搜索能力。该项目基于43个数据集构建，涵盖查询理解、文档理解和查询-文档关系理解三大类任务。实验表明，INTERS能有效增强LLaMA、Mistral等开源大型语言模型在信息检索方面的表现，为搜索技术发展开辟新路径。

LLM4IR-Survey - 大语言模型在信息检索领域的应用研究综述

Github开源项目LLM重排序信息检索检索器查询重写

LLM4IR-Survey项目汇集了大语言模型在信息检索领域应用的相关研究论文。项目涵盖查询重写、检索、重排序、阅读理解和搜索代理等方向，全面展示大语言模型在信息检索各环节的应用。该资源持续更新，反映最新研究进展和创新应用，为该领域的研究人员和从业者提供重要参考。

RankGPT - 利用大语言模型优化信息检索排序

Github开源项目大语言模型重排序信息检索RankGPT排序指令蒸馏

RankGPT项目研究如何利用ChatGPT等大语言模型改进信息检索排序。该项目提出指令排列生成技术和滑动窗口策略，解决了长文本排序问题。实验表明，这种方法在多个基准测试中性能显著。项目还开发了模型蒸馏技术，将大语言模型能力迁移到小型模型，提高了实用性。

awesome-pretrained-models-for-information-retrieval - 信息检索领域预训练模型研究综述与最新进展

Github开源项目预训练模型深度学习神经网络搜索引擎信息检索

该项目汇集了信息检索领域预训练模型相关的重要论文资源。内容涵盖第一阶段检索、重排序、联合学习等核心技术，以及大语言模型应用和多模态检索等前沿主题。项目提供了全面的文献综述，有助于研究人员和从业者了解该领域的最新进展和发展方向。资源列表系统梳理了稀疏检索、密集检索等关键技术，为相关研究提供了宝贵的参考。

vec4ir - 基于词嵌入的开源信息检索框架

Github开源项目评估框架信息检索词嵌入相似度计算Vec4IR

Vec4IR是一个开源的信息检索框架,专注于实际应用场景。它原生支持词嵌入技术,与gensim无缝集成。框架提供内置评估功能,API设计参考sklearn,便于扩展新模型。核心组件包括匹配和相似度评分,还支持查询扩展等高级特性。Vec4IR适合研究人员评估检索模型,也可帮助数据科学家选择最佳方案。框架核心功能包括文档匹配和相似度评分。它还提供查询扩展、伪相关反馈等高级特性,可满足复杂的检索需求。Vec4IR采用模块化设计,便于研究人员快速实现和评估新的检索算法。对于数据科学家,该框架也是比较不同检索模型性能的理想工具。

AgentSearch：革新搜索代理和本地搜索的强大框架

3 个月前

Azure OpenAI与大型语言模型:探索RAG、LlamaIndex和向量存储

3 个月前

Superlinked: 革新企业级AI应用的计算框架

3 个月前

GraphRAG4OpenWebUI：整合微软GraphRAG技术的开放式Web界面信息检索系统

3 个月前

ChatGPT-RetrievalQA：探索ChatGPT响应在问答检索模型训练中的应用

3 个月前

Motörhead: 传奇重金属乐队的不朽传奇

3 个月前

MS MARCO Web Search: 一个大规模信息丰富的网络数据集

3 个月前

RAGatouille: 简化先进检索方法在RAG应用中的使用

投诉举报邮箱: service@vectorlightyear.com