#文档检索

haystack - 用于构建端到端LLM应用程序的高级框架,支持广泛的NLP功能
HaystackLLM文档检索语义搜索自然语言问答Github开源项目热门
Haystack是一个综合性的LLM框架,能够实现从文档检索到问题回答的多种功能。用户可以灵活选择使用OpenAI、Cohere、Hugging Face等提供的模型,或是自定义部署在各大平台的模型。该框架支持包括语义搜索、答案生成和大规模文档处理等广泛的NLP任务,同时还支持使用现成模型或对其进行微调,基于用户反馈持续优化模型性能。适用于企业级应用开发,帮助用户解决复杂的NLP问题。
星火文档问答 - 科大讯飞星火智能文档问答平台
办公工具AI工具讯飞星火知识库大模型文档检索知识库问答AI分析AI办公热门
科大讯飞星火文档问答服务,采用先进AI技术,不仅能高效检索信息,还能准确回答专业问题。其主要功能包括多文档问答、信源原文定位、文档总结与自定义切分,专为各类文档内容的深度解析和敏感问题解答设计,实现深度文档分析和高灵敏度问题响应,为用户提供出色的智能问答体验。
raptor - 利用递归树结构提升大规模文本检索效率的新技术
RAPTOR文档检索语言模型树结构自然语言处理Github开源项目
RAPTOR采用递归树结构,提升语言模型的信息检索效率和上下文理解能力,克服了传统模型的局限。本文介绍了RAPTOR的具体实施方法、安装步骤和使用指南,并展示了如何集成自定义模型来扩展其功能。
colpali - 基于视觉语言模型的高效文档检索系统
ColPali文档检索视觉语言模型模型训练效率Github开源项目
ColPali是一个基于视觉语言模型的文档检索系统。该项目整合了ColBERT检索器模型、大型语言模型和图像语言模型,实现高效的文档搜索功能。ColPali支持自定义训练,安装和使用简便,适用于多种文档检索场景。系统能同时处理文本和图像信息,提供准确全面的检索结果。
SearchMyDocs.ai - AI驱动的多格式文档搜索与对话系统
AI工具AI搜索文档检索隐私安全OCR技术ChatGPT
SearchMyDocs.ai是一款支持多种文件格式的智能文档搜索和对话系统。该平台采用先进的AI技术,实现精准信息检索,同时确保数据隐私和安全。用户可以轻松上传PDF、Markdown、Word等格式文档,并通过智能交互快速获取所需信息。该系统还具备OCR功能,支持JPEG、PNG、TIFF等图片格式的文本识别,进一步扩展了文档搜索和分析的范围。这一创新解决方案适用于个人和专业用户,有效提升文档管理效率和信息检索速度。
ragna - 高效灵活的RAG编排框架简化AI应用开发
RagnaRAG编排框架文档检索自然语言处理开源项目Github
Ragna是一个RAG(检索增强生成)编排框架,旨在简化AI应用开发过程。该框架支持Python API、REST API和Web应用界面,方便开发者构建和部署基于RAG的智能系统。Ragna的设计注重灵活性和可扩展性,适应多种AI应用场景。该框架有助于加速智能解决方案的开发,促进AI技术在各领域的应用。
ir_datasets - 统一信息检索数据集接口的Python工具
ir_datasets信息检索数据集Python包文档检索Github开源项目
ir_datasets是一个Python工具包,为信息检索领域的多种数据集提供统一接口。它可自动下载和处理公开数据集,并为非公开数据集提供获取指南。该工具支持Python和命令行使用,能处理大规模数据集,并修正已知问题。通过快速随机文档访问和灵活迭代切片等功能,ir_datasets简化了信息检索研究中的数据处理流程。
opensearch-neural-sparse-encoding-doc-v1 - OpenSearch神经稀疏编码模型提升信息检索效率
HuggingfaceOpenSearch模型文档检索机器学习模型Github开源项目搜索引擎神经稀疏编码
opensearch-neural-sparse-encoding-doc-v1是一款为OpenSearch开发的学习型稀疏检索模型。它能将文档转换为30522维稀疏向量,并采用高效的查询处理方法。该模型经MS MARCO数据集训练,实际性能堪比BM25。模型支持基于Lucene倒排索引的学习型稀疏检索,可通过OpenSearch高级API实现索引和搜索。在BEIR基准测试的13个子集上,该模型展现了优秀的零样本性能,体现了出色的搜索相关性和检索效率。
bi-encoder_msmarco_bert-base_german - 德语语义搜索和文档检索的先进模型 基于MSMARCO数据集训练
模型BERTGithub开源项目Huggingface信息检索文档检索语义搜索MSMARCO
这个模型专为德语语义搜索和文档检索设计。它使用机器翻译的MSMARCO数据集训练,结合硬负样本和Margin MSE损失,在非对称搜索任务中达到了先进水平。模型在germandpr-beir基准测试的NDCG指标上表现出色,优于其他多语言模型。它与Sentence Transformer库兼容,可广泛应用于各类信息检索任务。
colpali - 基于PaliGemma-3B的多向量文档检索模型
模型PaliGemma多向量表示开源项目Huggingface文档检索GithubColPali视觉语言模型
ColPali是一个基于PaliGemma-3B的文档检索模型,结合了ColBERT策略生成文本和图像的多向量表示。该模型将SigLIP的图像块嵌入输入到语言模型中,实现文本与图像的深度交互,从而提升检索效果。尽管主要在英语数据集上训练,ColPali展现出对其他语言的零样本泛化能力。这一创新设计为多模态文档检索领域带来了新的技术方案。
sentence-transformer-klue-temp - 韩语句子转换模型的ColBERTv2实现方案
GithubColBERTv2自然语言处理Huggingface模型训练开源项目文档检索模型句子转换器
hunkim/sentence-transformer-klue模型的ColBERTv2优化实现,通过问题、相关文档和不相关文档的三元组进行训练,使用2-4个文档块进行分割学习和索引。模型在训练过程中采用随机抽取不相关文档的方式,可能导致每次训练的性能存在细微差异。主要应用于韩语自然语言处理中的句子相似度匹配任务。
Splade_PP_en_v1 - SPLADE++稀疏文档检索模型的工业级优化实现
检索效率GithubSPLADE++模型开源项目Huggingface文档检索稀疏表示关键词扩展
基于SPLADE++的文档检索模型优化实现,通过FLOPS和令牌预算的调整实现高效检索。模型以bert-base-uncased为基础,在47.27ms的检索延迟下达到37.22的MRR@10性能,适合工业级搜索应用部署。