#文档检索

haystack - 用于构建端到端LLM应用程序的高级框架,支持广泛的NLP功能
HaystackLLM文档检索语义搜索自然语言问答Github开源项目热门
Haystack是一个综合性的LLM框架,能够实现从文档检索到问题回答的多种功能。用户可以灵活选择使用OpenAI、Cohere、Hugging Face等提供的模型,或是自定义部署在各大平台的模型。该框架支持包括语义搜索、答案生成和大规模文档处理等广泛的NLP任务,同时还支持使用现成模型或对其进行微调,基于用户反馈持续优化模型性能。适用于企业级应用开发,帮助用户解决复杂的NLP问题。
星火文档问答 - 科大讯飞星火智能文档问答平台
办公工具AI工具讯飞星火知识库大模型文档检索知识库问答AI分析AI办公热门
科大讯飞星火文档问答服务,采用先进AI技术,不仅能高效检索信息,还能准确回答专业问题。其主要功能包括多文档问答、信源原文定位、文档总结与自定义切分,专为各类文档内容的深度解析和敏感问题解答设计,实现深度文档分析和高灵敏度问题响应,为用户提供出色的智能问答体验。
raptor - 利用递归树结构提升大规模文本检索效率的新技术
RAPTOR文档检索语言模型树结构自然语言处理Github开源项目
RAPTOR采用递归树结构,提升语言模型的信息检索效率和上下文理解能力,克服了传统模型的局限。本文介绍了RAPTOR的具体实施方法、安装步骤和使用指南,并展示了如何集成自定义模型来扩展其功能。
colpali - 基于视觉语言模型的高效文档检索系统
ColPali文档检索视觉语言模型模型训练效率Github开源项目
ColPali是一个基于视觉语言模型的文档检索系统。该项目整合了ColBERT检索器模型、大型语言模型和图像语言模型,实现高效的文档搜索功能。ColPali支持自定义训练,安装和使用简便,适用于多种文档检索场景。系统能同时处理文本和图像信息,提供准确全面的检索结果。
SearchMyDocs.ai - AI驱动的多格式文档搜索与对话系统
AI工具AI搜索文档检索隐私安全OCR技术ChatGPT
SearchMyDocs.ai是一款支持多种文件格式的智能文档搜索和对话系统。该平台采用先进的AI技术,实现精准信息检索,同时确保数据隐私和安全。用户可以轻松上传PDF、Markdown、Word等格式文档,并通过智能交互快速获取所需信息。该系统还具备OCR功能,支持JPEG、PNG、TIFF等图片格式的文本识别,进一步扩展了文档搜索和分析的范围。这一创新解决方案适用于个人和专业用户,有效提升文档管理效率和信息检索速度。
ragna - 高效灵活的RAG编排框架简化AI应用开发
RagnaRAG编排框架文档检索自然语言处理开源项目Github
Ragna是一个RAG(检索增强生成)编排框架,旨在简化AI应用开发过程。该框架支持Python API、REST API和Web应用界面,方便开发者构建和部署基于RAG的智能系统。Ragna的设计注重灵活性和可扩展性,适应多种AI应用场景。该框架有助于加速智能解决方案的开发,促进AI技术在各领域的应用。
ir_datasets - 统一信息检索数据集接口的Python工具
ir_datasets信息检索数据集Python包文档检索Github开源项目
ir_datasets是一个Python工具包,为信息检索领域的多种数据集提供统一接口。它可自动下载和处理公开数据集,并为非公开数据集提供获取指南。该工具支持Python和命令行使用,能处理大规模数据集,并修正已知问题。通过快速随机文档访问和灵活迭代切片等功能,ir_datasets简化了信息检索研究中的数据处理流程。
splade-cocondenser-selfdistil - SPLADE模型在段落检索任务中的优化应用
知识蒸馏稀疏模型Huggingface模型文档检索SPLADEGithub开源项目神经信息检索
SPLADE CoCondenser SelfDistil是一个专为段落检索设计的模型,结合了CoCondenser和自蒸馏技术。在MS MARCO开发集上,该模型展现出优秀性能,MRR@10达37.6,R@1000达98.4。通过整合查询扩展、文档扩展和词袋方法,并采用硬负样本采样和知识蒸馏技术,有效提升了稀疏神经IR模型的效果。这一模型为信息检索和自然语言处理领域的研究提供了有力工具。
opensearch-neural-sparse-encoding-doc-v2-distill - 神经稀疏编码模型优化文档检索效率
模型OpenSearch文档检索神经稀疏编码Github变压器模型Huggingface开源项目自然语言处理
opensearch-neural-sparse-encoding-doc-v2-distill是一种先进的学习型稀疏检索模型,能将文档编码为30522维稀疏向量。该模型在BEIR基准测试中表现出色,展现了优秀的零样本性能和搜索相关性。其67M的参数量和0.504的平均NDCG@10分数,体现了模型的高效性。结合OpenSearch神经稀疏特性和Lucene倒排索引,可实现快速精准的文档检索。
colpali-v1.2 - 基于PaliGemma-3B和ColBERT策略的创新视觉文档检索模型
ColPali语言模型模型文档检索视觉检索GithubHuggingface开源项目多模态
ColPali-v1.2是一种创新的视觉文档检索模型,结合了PaliGemma-3B和ColBERT策略。它通过生成文本和图像的多向量表示,有效提高了检索效率。模型采用混合数据集和LoRA技术进行训练,在英语和非英语文档检索任务中表现出色。ColPali-v1.2主要针对PDF类文档,为文档检索领域提供了新的解决方案。该模型在处理视觉特征和跨语言检索方面具有优势,但在其他类型文档的应用上可能存在局限性。
colqwen2-v0.1 - ColQwen2:结合ColBERT策略的先进视觉语言检索模型
模型多向量表示开源项目HuggingfaceQwen2-VL文档检索ColQwen2Github视觉语言模型
ColQwen2是一种基于Qwen2-VL-2B的创新视觉语言模型,结合ColBERT策略实现高效文档检索。它支持动态图像分辨率输入,最多处理768个图像patch,在性能和内存需求间取得平衡。模型通过127,460对查询-页面数据训练,涵盖学术和合成数据集,重点关注英语内容,探索零样本跨语言泛化能力。ColQwen2为文本-图像检索任务提供了先进的解决方案,展现了在效率和准确性方面的显著优势。
opensearch-neural-sparse-encoding-doc-v1 - OpenSearch神经稀疏编码模型提升信息检索效率
HuggingfaceOpenSearch模型文档检索机器学习模型Github开源项目搜索引擎神经稀疏编码
opensearch-neural-sparse-encoding-doc-v1是一款为OpenSearch开发的学习型稀疏检索模型。它能将文档转换为30522维稀疏向量,并采用高效的查询处理方法。该模型经MS MARCO数据集训练,实际性能堪比BM25。模型支持基于Lucene倒排索引的学习型稀疏检索,可通过OpenSearch高级API实现索引和搜索。在BEIR基准测试的13个子集上,该模型展现了优秀的零样本性能,体现了出色的搜索相关性和检索效率。
bi-encoder_msmarco_bert-base_german - 德语语义搜索和文档检索的先进模型 基于MSMARCO数据集训练
模型BERTGithub开源项目Huggingface信息检索文档检索语义搜索MSMARCO
这个模型专为德语语义搜索和文档检索设计。它使用机器翻译的MSMARCO数据集训练,结合硬负样本和Margin MSE损失,在非对称搜索任务中达到了先进水平。模型在germandpr-beir基准测试的NDCG指标上表现出色,优于其他多语言模型。它与Sentence Transformer库兼容,可广泛应用于各类信息检索任务。
colpali - 基于PaliGemma-3B的多向量文档检索模型
模型PaliGemma多向量表示开源项目Huggingface文档检索GithubColPali视觉语言模型
ColPali是一个基于PaliGemma-3B的文档检索模型,结合了ColBERT策略生成文本和图像的多向量表示。该模型将SigLIP的图像块嵌入输入到语言模型中,实现文本与图像的深度交互,从而提升检索效果。尽管主要在英语数据集上训练,ColPali展现出对其他语言的零样本泛化能力。这一创新设计为多模态文档检索领域带来了新的技术方案。
sentence-transformer-klue-temp - 韩语句子转换模型的ColBERTv2实现方案
GithubColBERTv2自然语言处理Huggingface模型训练开源项目文档检索模型句子转换器
hunkim/sentence-transformer-klue模型的ColBERTv2优化实现,通过问题、相关文档和不相关文档的三元组进行训练,使用2-4个文档块进行分割学习和索引。模型在训练过程中采用随机抽取不相关文档的方式,可能导致每次训练的性能存在细微差异。主要应用于韩语自然语言处理中的句子相似度匹配任务。
Splade_PP_en_v1 - SPLADE++稀疏文档检索模型的工业级优化实现
检索效率GithubSPLADE++模型开源项目Huggingface文档检索稀疏表示关键词扩展
基于SPLADE++的文档检索模型优化实现,通过FLOPS和令牌预算的调整实现高效检索。模型以bert-base-uncased为基础,在47.27ms的检索延迟下达到37.22的MRR@10性能,适合工业级搜索应用部署。