#文档检索

haystack - 用于构建端到端LLM应用程序的高级框架，支持广泛的NLP功能

HaystackLLM文档检索语义搜索自然语言问答Github开源项目热门

Haystack是一个综合性的LLM框架，能够实现从文档检索到问题回答的多种功能。用户可以灵活选择使用OpenAI、Cohere、Hugging Face等提供的模型，或是自定义部署在各大平台的模型。该框架支持包括语义搜索、答案生成和大规模文档处理等广泛的NLP任务，同时还支持使用现成模型或对其进行微调，基于用户反馈持续优化模型性能。适用于企业级应用开发，帮助用户解决复杂的NLP问题。

星火文档问答 - 科大讯飞星火智能文档问答平台

办公工具AI工具讯飞星火知识库大模型文档检索知识库问答AI分析AI办公热门

科大讯飞星火文档问答服务，采用先进AI技术，不仅能高效检索信息，还能准确回答专业问题。其主要功能包括多文档问答、信源原文定位、文档总结与自定义切分，专为各类文档内容的深度解析和敏感问题解答设计，实现深度文档分析和高灵敏度问题响应，为用户提供出色的智能问答体验。

raptor - 利用递归树结构提升大规模文本检索效率的新技术

RAPTOR文档检索语言模型树结构自然语言处理Github开源项目

RAPTOR采用递归树结构，提升语言模型的信息检索效率和上下文理解能力，克服了传统模型的局限。本文介绍了RAPTOR的具体实施方法、安装步骤和使用指南，并展示了如何集成自定义模型来扩展其功能。

colpali - 基于视觉语言模型的高效文档检索系统

ColPali文档检索视觉语言模型模型训练效率Github开源项目

ColPali是一个基于视觉语言模型的文档检索系统。该项目整合了ColBERT检索器模型、大型语言模型和图像语言模型，实现高效的文档搜索功能。ColPali支持自定义训练，安装和使用简便，适用于多种文档检索场景。系统能同时处理文本和图像信息，提供准确全面的检索结果。

SearchMyDocs.ai - AI驱动的多格式文档搜索与对话系统

AI工具AI搜索文档检索隐私安全OCR技术ChatGPT

SearchMyDocs.ai是一款支持多种文件格式的智能文档搜索和对话系统。该平台采用先进的AI技术，实现精准信息检索，同时确保数据隐私和安全。用户可以轻松上传PDF、Markdown、Word等格式文档，并通过智能交互快速获取所需信息。该系统还具备OCR功能，支持JPEG、PNG、TIFF等图片格式的文本识别，进一步扩展了文档搜索和分析的范围。这一创新解决方案适用于个人和专业用户，有效提升文档管理效率和信息检索速度。

ragna - 高效灵活的RAG编排框架简化AI应用开发

RagnaRAG编排框架文档检索自然语言处理开源项目Github

Ragna是一个RAG(检索增强生成)编排框架，旨在简化AI应用开发过程。该框架支持Python API、REST API和Web应用界面，方便开发者构建和部署基于RAG的智能系统。Ragna的设计注重灵活性和可扩展性，适应多种AI应用场景。该框架有助于加速智能解决方案的开发，促进AI技术在各领域的应用。

ir_datasets - 统一信息检索数据集接口的Python工具

ir_datasets信息检索数据集Python包文档检索Github开源项目

ir_datasets是一个Python工具包,为信息检索领域的多种数据集提供统一接口。它可自动下载和处理公开数据集,并为非公开数据集提供获取指南。该工具支持Python和命令行使用,能处理大规模数据集,并修正已知问题。通过快速随机文档访问和灵活迭代切片等功能,ir_datasets简化了信息检索研究中的数据处理流程。

opensearch-neural-sparse-encoding-doc-v1 - OpenSearch神经稀疏编码模型提升信息检索效率

HuggingfaceOpenSearch模型文档检索机器学习模型Github开源项目搜索引擎神经稀疏编码

opensearch-neural-sparse-encoding-doc-v1是一款为OpenSearch开发的学习型稀疏检索模型。它能将文档转换为30522维稀疏向量，并采用高效的查询处理方法。该模型经MS MARCO数据集训练，实际性能堪比BM25。模型支持基于Lucene倒排索引的学习型稀疏检索，可通过OpenSearch高级API实现索引和搜索。在BEIR基准测试的13个子集上，该模型展现了优秀的零样本性能，体现了出色的搜索相关性和检索效率。

bi-encoder_msmarco_bert-base_german - 德语语义搜索和文档检索的先进模型基于MSMARCO数据集训练

模型BERTGithub开源项目Huggingface信息检索文档检索语义搜索MSMARCO

这个模型专为德语语义搜索和文档检索设计。它使用机器翻译的MSMARCO数据集训练,结合硬负样本和Margin MSE损失,在非对称搜索任务中达到了先进水平。模型在germandpr-beir基准测试的NDCG指标上表现出色,优于其他多语言模型。它与Sentence Transformer库兼容,可广泛应用于各类信息检索任务。

colpali - 基于PaliGemma-3B的多向量文档检索模型

模型PaliGemma多向量表示开源项目Huggingface文档检索GithubColPali视觉语言模型

ColPali是一个基于PaliGemma-3B的文档检索模型，结合了ColBERT策略生成文本和图像的多向量表示。该模型将SigLIP的图像块嵌入输入到语言模型中，实现文本与图像的深度交互，从而提升检索效果。尽管主要在英语数据集上训练，ColPali展现出对其他语言的零样本泛化能力。这一创新设计为多模态文档检索领域带来了新的技术方案。

sentence-transformer-klue-temp - 韩语句子转换模型的ColBERTv2实现方案

GithubColBERTv2自然语言处理Huggingface模型训练开源项目文档检索模型句子转换器

hunkim/sentence-transformer-klue模型的ColBERTv2优化实现，通过问题、相关文档和不相关文档的三元组进行训练，使用2-4个文档块进行分割学习和索引。模型在训练过程中采用随机抽取不相关文档的方式，可能导致每次训练的性能存在细微差异。主要应用于韩语自然语言处理中的句子相似度匹配任务。

Splade_PP_en_v1 - SPLADE++稀疏文档检索模型的工业级优化实现

检索效率GithubSPLADE++模型开源项目Huggingface文档检索稀疏表示关键词扩展

基于SPLADE++的文档检索模型优化实现，通过FLOPS和令牌预算的调整实现高效检索。模型以bert-base-uncased为基础，在47.27ms的检索延迟下达到37.22的MRR@10性能，适合工业级搜索应用部署。

相关文章

Article Cover

RAPTOR: 一种创新的递归抽象处理技术

Article Cover

ColPali: 基于视觉语言模型的高效文档检索系统

Article Cover

Ragna: 开源RAG编排框架的介绍与应用

Article Cover

ir_datasets: 信息检索数据集的统一接口

Article Cover

Haystack入门学习资料汇总 - AI应用开发框架

Article Cover

RAPTOR入门指南 - 基于递归树结构的高效文本检索与问答系统

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号