#信息检索
Awesome-LLM-Long-Context-Modeling - 包含有关高效转换器、长度外推、长期内存、检索增强生成 (RAG) 和长上下文建模评估的论文和博客的存储库
Github开源项目大语言模型自然语言处理长文本处理信息检索Transformer优化
本仓库收集了关于高效变换器、长度外推、长期记忆、增强检索生成(RAG)及长文本建模评估的研究论文和博客,提供专业资源用于探索长上下文模型及其挑战,并讨论优化NLP模型的创新方法,适合深度语言模型和复杂文本建模研究人员及开发者。考虑到用户搜索意图的多样性,建议在SEO描述中提及项目对长文本建模从算法到实际应用的全面影响,以及其对未来研究方向的启示。
agent-search - 提升搜索代理与本地搜索能力的先进框架
Github开源项目搜索引擎信息检索AgentSearchLLM技术定制搜索
AgentSearch是一个创新框架,通过结合多家提供商的LLM技术与搜索引擎,增强搜索代理性能。支持搜索结果总结、查询生成与深度检索,还能部署个性化本地搜索解决方案,提供多样的API接入选项。
A-Guide-to-Retrieval-Augmented-LLM - 探讨检索增强大语言模型的核心要素、工作原理及实践应用的文章
Github开源项目大语言模型信息检索检索增强LLM长尾知识私有数据
本文深入探讨检索增强大语言模型(Retrieval Augmented LLM)的核心要素、工作原理及实践应用。通过结合外部信息源,该技术显著提高了模型在处理时效性强的数据、保护私有信息及应对长尾知识挑战方面的能力。文章还评估了在实际场景中该技术的效果,提供了一个关于如何有效利用检索增强大语言模型的全面视角。
awesome-azure-openai-llm - 揭示Azure OpenAI与大型语言模型(LLM)的综合功能
Github开源项目大语言模型API集成信息检索Azure OpenAI语言模型训练
提供Azure OpenAI和大型语言模型(LLM)的综合参考,包括服务与技术的详细比较和专有功能介绍。深入探讨私有网络支持、角色认证和AI内容过滤的优势,非常适合希望全面了解并运用Azure OpenAI整合服务的技术用户。
superlinked - 信息检索与特征工程的超模态向量嵌入计算框架
Github开源项目机器学习向量嵌入信息检索Superlinked特征工程
Superlinked 是一个计算框架,专注将复杂数据(如结构化和非结构化数据)转化为超模态向量嵌入,适用于RAG、搜索、推荐和分析系统。它结合了预训练模型的便利性和自定义模型的性能。该框架提供多种嵌入类型、定制编码器、组合编码器和动态参数等功能,并支持多种向量数据库,适用于实验和生产环境。
primeqa - PrimeQA:多语言问答系统的开源研究和开发平台
Github开源项目机器阅读理解信息检索PrimeQA多语言问答问题生成
PrimeQA是一个开源平台,帮助研究人员和开发人员训练先进的问答模型。用户可以在PrimeQA上复制NLP会议中的实验,下载预训练模型并应用于自定义数据。该平台支持信息检索、多语言阅读理解、问题生成及检索增强的生成技术。PrimeQA在多个排行榜中名列前茅,整合Transformers工具包以提供强大的问答功能,满足领先的研究和开发需求。
splade - 优化查询和文档检索的SPLADE稀疏模型
Github开源项目模型训练SPLADE信息检索BEIR基准
SPLADE项目使用BERT的MLM头和稀疏正则化来学习查询和文档的稀疏扩展,优化了检索性能。项目包含训练、索引和检索的代码,并支持在BEIR基准测试中评估。最新版本通过硬负样本采样、蒸馏和改进的预训练语言模型初始化,显著提升了检索效果。此外,SPLADE的稀疏表示优化了倒排索引的使用,提供了显式词汇匹配和可解释性等优点。经过优化的训练和正则化,SPLADE在域内外测试中表现优异,延迟性能与BM25相当。
GraphRAG4OpenWebUI - 高级信息检索技术在 Open WebUI 的全面集成
Github开源项目GraphRAG信息检索嵌入模型GraphRAG4OpenWebUILocal LLM
GraphRAG4OpenWebUI 为 Open WebUI 提供了一个强大而高效的信息检索系统,集成了微软研究院的 GraphRAG 技术,支持本地搜索、全球搜索和 Tavily 搜索。该项目专为需要精确和全面搜索结果的开放网络用户界面设计,并且支持本地语言模型和嵌入模型,增强了灵活性和隐私性。通过多个 API 接口,用户可以轻松实现复杂的信息检索需求。
ChatGPT-RetrievalQA - 使用ChatGPT和人类响应数据训练和评估问答检索模型
Github开源项目ChatGPT数据集信息检索训练数据答案排序
提供ChatGPT与人类响应的数据集,以训练和评估问答检索模型。数据集基于HC3公开数据,分析ChatGPT和传统检索模型在回答真实性和可靠性上的差异。项目由阿姆斯特丹大学支持,数据格式兼容MSMarco,便于研究人员使用现有脚本。
motorhead - 用于LLM聊天应用的记忆与信息检索服务器
Github开源项目API会话内存处理信息检索Motorhead
Motorhead是一个用于LLM聊天应用的记忆与信息检索服务器,通过简单易用的API接口,方便管理对话记忆和进行增量摘要,还支持文本检索。尽管该项目已停用维护,但仍提供详细的配置和部署指南,包括Docker和Azure部署,帮助开发者高效处理对话数据。
RAGatouille - 优化RAG管道的先进检索工具
Github开源项目ColBERT检索增强生成信息检索神经搜索RAGatouille
RAGatouille是一个开源的检索增强生成(RAG)工具包,专注于将先进的检索方法应用于RAG管道。它集成了ColBERT等最新研究成果,提供简单易用的API接口用于模型训练、文档索引和检索。RAGatouille的设计理念是模块化和易用性,同时保持高度可定制性。通过优化检索性能,该工具包旨在提升RAG系统的整体效果,促进信息检索技术在实际应用中的发展。
MS-MARCO-Web-Search - 大规模网络数据集推动搜索与机器学习研究进展
Github开源项目机器学习搜索引擎数据集信息检索MS MARCO Web Search
MS-MARCO-Web-Search是一个基于ClueWeb22的大规模网络数据集,包含数百万真实查询点击标签。它提供丰富的文本、视觉和语义信息,设置了嵌入模型、嵌入检索和端到端检索三个挑战任务。该数据集旨在推动机器学习和信息检索系统研究,并验证方法在大规模数据上的有效性。
ColBERT - 基于BERT的快速大规模文本检索模型
Github开源项目自然语言处理BERTColBERT信息检索向量相似度
ColBERT是一种基于BERT的检索模型,能在数十毫秒内实现大规模文本集合的高效搜索。该模型采用细粒度的上下文后期交互技术,将段落编码为令牌级嵌入矩阵,在保持检索质量的同时提高效率。ColBERT具备索引、检索和训练功能,适用于多种信息检索任务。模型提供预训练checkpoint和Python API,方便研究人员和开发者在实际项目中快速应用。
RAG_Techniques - 先进RAG技术集合优化检索增强生成系统
Github开源项目自然语言处理机器学习RAG检索增强生成信息检索
本项目汇集22种先进RAG技术,涵盖简单RAG到复杂可控代理等多种方法,包括上下文丰富、多方面过滤、融合检索和智能重排序等。这些技术旨在提高检索增强生成系统的准确性、效率和上下文丰富度,为研究人员和实践者提供全面实施指南,助力开发更高效RAG系统。
anserini - 开源可复现信息检索研究工具包
Github开源项目信息检索回归实验AnseriniLuceneMS MARCO
Anserini是基于Lucene开发的开源信息检索工具包,致力于推动可复现的学术研究。该工具包提供从索引构建到结果评估的端到端实验支持,实现了BM25、doc2query-T5、SPLADE等多种先进检索模型。Anserini可应用于各类标准IR测试集,有助于缩小信息检索研究与实际搜索应用之间的差距。
pyserini - Python信息检索工具包 支持多种检索模型
Github开源项目信息检索搜索工具实验复现Pyserini索引构建
Pyserini是一个Python信息检索工具包,支持稀疏和密集表示检索。该工具包集成了Anserini和Faiss库,可用于多阶段排序的首轮检索。Pyserini提供预构建索引、查询、评估脚本等功能,方便在标准IR测试集上复现实验。它支持传统词法模型、学习型稀疏检索模型、密集检索模型及混合检索模型,并有详细的使用指南。
MemFree - 整合多源知识的智能混合搜索与问答平台
AI工具智能问答信息检索互联网搜索MemFree混合AI搜索
MemFree是一款创新的混合AI搜索平台,整合书签、笔记、文档和互联网资源,提供全面的知识管理解决方案。该平台利用GPT-4等先进AI技术,实现快速准确的信息检索和智能问答,大幅提升知识管理效率。MemFree能够智能搜索和询问书签、笔记和文档,同时结合互联网资源,作为强大的信息整合工具,为用户带来便捷高效的智能搜索体验。
AI Answer Generator - 基于GPT-4的智能问答系统 即时生成详细回答
人工智能AI自然语言处理AI工具问答系统信息检索
AI Answer Generator是一款基于GPT-4技术的智能问答工具,无需注册即可免费使用。系统能够针对各类问题迅速生成准确、详细的回答,涵盖从简单事实查询到复杂分析等多种主题。这一工具适用于学生、专业人士及信息搜索者,有助于提高工作效率和学习效果。无论是一般性问题还是深度探讨,AI Answer Generator都能提供相关且有价值的信息。使用便捷,无需注册,即可体验高效智能问答服务。
Gems - AI知识管理系统 轻松获取团队信息
AI工具团队协作知识管理信息检索Gems即时答案
Gems是一款创新型AI知识管理系统,能快速整合和检索团队的全部知识资源。该系统采用问答式交互,提供精准的信息摘要。Gems简化了知识管理流程,具备源头追溯功能,便于信息验证。它实现知识的自动集中化管理,无需手动整理,显著提升工作效率。作为一款高效的智能助手工具,Gems为团队提供即时、全面的知识支持。
Ubblu - 智能笔记应用助力高效创意管理和信息检索
AI工具知识管理信息检索AI笔记生产力工具Ubblu
Ubblu是一款AI驱动的笔记应用,专注于提升创造力和工作效率。该应用集成了直观的笔记系统、详细的信息卡片和智能标签功能,简化了想法和信息的捕捉、组织与检索过程。其独特的'Ask'功能实现了快速精准的信息查找,省去了繁琐的手动搜索。Ubblu还提供文档分析、概念关联和提醒设置等实用功能,为注重创作的专业人士打造了一个高效的智能工作平台。
Cambrian - 智能平台助力机器学习文献发现与理解
机器学习AI工具文献综述信息检索研究发现知识更新
Cambrian是一个面向机器学习研究人员和工程师的智能平台,旨在解决信息过载问题。该平台提供最新研究成果的发现功能,支持搜索超过240,000篇机器学习论文,并协助理解复杂细节。Cambrian还配备实时更新的论文数据库和智能分析工具,能自动化文献综述过程,有助于提高科研效率,使用户在快速发展的机器学习领域保持更新。
Casc - AI驱动的企业知识管理系统助力团队效率提升
知识库AI工具信息检索生产力工具Slack集成Casc
Casc作为一款智能知识管理系统,集成多种数据源如Google Drive、Confluence和Notion,通过AI技术自动整理企业信息。系统与Slack深度整合,提供即时问答服务,同时具备会议记录、数据安全保护和视频通话转录等功能。Casc致力于优化企业内部信息流通,显著提升团队工作效率和知识共享水平。
Niddam - 本地化AI对话与内容生成解决方案
自然语言处理AI助手AI工具内容生成任务自动化信息检索
Niddam是一款本地化AI平台,专注于保护用户隐私。它提供自然对话、内容生成、文档摘要和创意解决方案,支持多种语言模型。数据存储在本地浏览器中,无需身份验证即可使用。这个安全高效的AI工具可用于任务自动化、信息检索和研究辅助,适合各类用户使用。
pdfy.ai - AI驱动的多媒体对话平台 简化信息获取与学习
人工智能AI工具文档处理信息检索数据交互pdfy.ai
pdfy.ai是一个多功能AI平台,支持与PDF、网页、音频和视频的对话交互。它提供智能问答、摘要生成和信息定位功能,有效提升信息获取和学习效率。平台适合各类用户,包括学生、研究人员和办公人员。pdfy.ai简化了数据搜索流程,使用户能够轻松访问所需知识并找到专业引用。通过实现与多种数据源的无缝对话,该工具帮助用户摆脱繁琐的信息检索过程。
AskJack - AI驱动的企业知识统一平台 提升工作效率
人工智能AI工具知识管理信息检索员工生产力企业应用集成
AskJack是一个企业级知识统一平台,通过AI技术整合各类业务应用数据,为员工提供即时答案。该平台有效解决信息孤岛问题,提高工作效率,支持新员工快速入职,减少重复性问题。AskJack适用于人力资源、IT支持、客户服务等多个部门,让员工能随时获取所需信息,优化工作流程,提升整体生产力。
Athen AI - 基于AI的企业智能助手 实现即时信息检索
智能助手AI工具企业管理生产力提升信息检索Athen AI
Athen AI是一款基于人工智能的企业智能助手,专注于提供即时信息检索服务。通过简单的邮件交互,Athen AI能快速搜索企业文档并在几秒内给出准确答复。该系统可与多种企业管理工具无缝集成,显著提高信息检索效率,节省员工时间。Athen AI操作简单,无需特殊培训即可上手。其持续学习优化功能能为企业提供日益精准的信息支持,有效提升整体生产力。
Recall - 智能内容摘要和知识管理系统
AI工具AI摘要知识管理信息检索学习效率内容组织
Recall作为智能内容摘要和知识管理系统,能够高效处理YouTube视频、文章和播客等多样化在线内容。系统不仅自动分类摘要,还能关联用户已保存的相关信息,揭示内容间的潜在联系。通过构建个人知识库,Recall有助于用户深入理解复杂主题,激发创新思维。该系统支持离线访问和数据导出,同时采取严格措施保护用户数据安全和隐私。
txyz.ai - 整合知识获取途径的智能研究平台
AI工具AI研究助手学术研究信息检索知识集成研发平台
txyz.ai是一个创新的研究平台,利用人工智能技术优化阅读、搜索和写作流程,显著提升研究效率。平台功能包括研究洞见即时提取、个性化论文推荐、自然语言搜索和综合研究资料库。适用于学术研究、行业研发和市场调研等领域,帮助用户高效获取知识和管理文献。作为面向未来的R&D智能平台,txyz.ai已为全球超过50万研究人员提供支持,致力于推动研究工作的智能化发展。
Smatr-AI - 快速文本摘要和智能问答的浏览器扩展
用户体验AI助手AI工具Chrome扩展信息检索文本摘要
Smatr-AI浏览器插件利用先进的自然语言处理技术,为用户提供快速文本摘要和智能问答服务。这款工具能够有效提取长篇文章的核心内容,节省阅读时间。用户可以通过点击段落旁的图标或使用右键菜单生成摘要,也可以直接向页面内容提问。Smatr-AI注重用户隐私,操作简便,响应迅速,价格合理,是提升在线阅读效率的理想选择。适用于学术研究、新闻阅读和信息收集等多种场景,帮助用户更快速、准确地获取关键信息。
TribalBase - Slack对话历史智能转化为团队知识库的智能工具
AI工具团队协作知识管理AI问答信息检索Slack助手
TribalBase是Slack集成工具,将对话历史智能转化为知识库。支持问答、摘要生成,促进团队信息共享。适合工程、销售团队及社区使用,提升问题解决效率。提供7天免费体验,助力团队将零散讨论变为有价值资源。
RetroMAE - 创新的检索导向语言模型预训练技术
Github开源项目预训练模型自然语言处理BERT信息检索RetroMAE
RetroMAE是一种创新的检索导向语言模型预训练方法。通过掩码自编码器技术,该方法在MS MARCO和BEIR等基准测试中取得了显著性能提升。项目开源了预训练模型和微调工具,并提供了详细使用说明。RetroMAE在监督检索任务中表现卓越,同时展现出优秀的零样本迁移能力,为信息检索研究带来新的突破。项目提供了多个预训练模型,包括在维基百科和图书语料上预训练的基础版本,以及在MS MARCO数据集上微调的特定版本。研究人员可以通过Hugging Face轻松加载这些模型,进行实验或进一步改进。
INTERS - 指令微调优化大型语言模型的搜索能力
Github开源项目大语言模型自然语言处理指令微调信息检索INTERS
INTERS是一个包含20个信息检索任务的指令微调数据集,旨在提升大型语言模型的搜索能力。该项目基于43个数据集构建,涵盖查询理解、文档理解和查询-文档关系理解三大类任务。实验表明,INTERS能有效增强LLaMA、Mistral等开源大型语言模型在信息检索方面的表现,为搜索技术发展开辟新路径。
LLM4IR-Survey - 大语言模型在信息检索领域的应用研究综述
Github开源项目LLM重排序信息检索检索器查询重写
LLM4IR-Survey项目汇集了大语言模型在信息检索领域应用的相关研究论文。项目涵盖查询重写、检索、重排序、阅读理解和搜索代理等方向,全面展示大语言模型在信息检索各环节的应用。
该资源持续更新,反映最新研究进展和创新应用,为该领域的研究人员和从业者提供重要参考。
RankGPT - 利用大语言模型优化信息检索排序
Github开源项目大语言模型重排序信息检索RankGPT排序指令蒸馏
RankGPT项目研究如何利用ChatGPT等大语言模型改进信息检索排序。该项目提出指令排列生成技术和滑动窗口策略,解决了长文本排序问题。实验表明,这种方法在多个基准测试中性能显著。项目还开发了模型蒸馏技术,将大语言模型能力迁移到小型模型,提高了实用性。
awesome-pretrained-models-for-information-retrieval - 信息检索领域预训练模型研究综述与最新进展
Github开源项目预训练模型深度学习神经网络搜索引擎信息检索
该项目汇集了信息检索领域预训练模型相关的重要论文资源。内容涵盖第一阶段检索、重排序、联合学习等核心技术,以及大语言模型应用和多模态检索等前沿主题。项目提供了全面的文献综述,有助于研究人员和从业者了解该领域的最新进展和发展方向。资源列表系统梳理了稀疏检索、密集检索等关键技术,为相关研究提供了宝贵的参考。
vec4ir - 基于词嵌入的开源信息检索框架
Github开源项目评估框架信息检索词嵌入相似度计算Vec4IR
Vec4IR是一个开源的信息检索框架,专注于实际应用场景。它原生支持词嵌入技术,与gensim无缝集成。框架提供内置评估功能,API设计参考sklearn,便于扩展新模型。核心组件包括匹配和相似度评分,还支持查询扩展等高级特性。Vec4IR适合研究人员评估检索模型,也可帮助数据科学家选择最佳方案。框架核心功能包括文档匹配和相似度评分。它还提供查询扩展、伪相关反馈等高级特性,可满足复杂的检索需求。Vec4IR采用模块化设计,便于研究人员快速实现和评估新的检索算法。对于数据科学家,该框架也是比较不同检索模型性能的理想工具。
相关文章
AgentSearch:革新搜索代理和本地搜索的强大框架
3 个月前
Azure OpenAI与大型语言模型:探索RAG、LlamaIndex和向量存储
3 个月前
Superlinked: 革新企业级AI应用的计算框架
3 个月前
GraphRAG4OpenWebUI:整合微软GraphRAG技术的开放式Web界面信息检索系统
3 个月前
ChatGPT-RetrievalQA:探索ChatGPT响应在问答检索模型训练中的应用
3 个月前
Motörhead: 传奇重金属乐队的不朽传奇
3 个月前
MS MARCO Web Search: 一个大规模信息丰富的网络数据集
3 个月前
RAGatouille: 简化先进检索方法在RAG应用中的使用
3 个月前
大型语言模型的长文本建模技术:挑战与进展
3 个月前