#文档检索

RAPTOR入门指南 - 基于递归树结构的高效文本检索与问答系统

2024年09月10日
Cover of RAPTOR入门指南 - 基于递归树结构的高效文本检索与问答系统

Haystack入门学习资料汇总 - AI应用开发框架

2024年09月10日
Cover of Haystack入门学习资料汇总 - AI应用开发框架

ir_datasets: 信息检索数据集的统一接口

2024年09月05日
Cover of ir_datasets: 信息检索数据集的统一接口

Ragna: 开源RAG编排框架的介绍与应用

2024年09月05日
Cover of Ragna: 开源RAG编排框架的介绍与应用

ColPali: 基于视觉语言模型的高效文档检索系统

2024年09月05日
Cover of ColPali: 基于视觉语言模型的高效文档检索系统

RAPTOR: 一种创新的递归抽象处理技术

2024年08月30日
Cover of RAPTOR: 一种创新的递归抽象处理技术
相关项目
Project Cover

haystack

Haystack是一个综合性的LLM框架,能够实现从文档检索到问题回答的多种功能。用户可以灵活选择使用OpenAI、Cohere、Hugging Face等提供的模型,或是自定义部署在各大平台的模型。该框架支持包括语义搜索、答案生成和大规模文档处理等广泛的NLP任务,同时还支持使用现成模型或对其进行微调,基于用户反馈持续优化模型性能。适用于企业级应用开发,帮助用户解决复杂的NLP问题。

Project Cover

星火文档问答

科大讯飞星火文档问答服务,采用先进AI技术,不仅能高效检索信息,还能准确回答专业问题。其主要功能包括多文档问答、信源原文定位、文档总结与自定义切分,专为各类文档内容的深度解析和敏感问题解答设计,实现深度文档分析和高灵敏度问题响应,为用户提供出色的智能问答体验。

Project Cover

raptor

RAPTOR采用递归树结构,提升语言模型的信息检索效率和上下文理解能力,克服了传统模型的局限。本文介绍了RAPTOR的具体实施方法、安装步骤和使用指南,并展示了如何集成自定义模型来扩展其功能。

Project Cover

colpali

ColPali是一个基于视觉语言模型的文档检索系统。该项目整合了ColBERT检索器模型、大型语言模型和图像语言模型,实现高效的文档搜索功能。ColPali支持自定义训练,安装和使用简便,适用于多种文档检索场景。系统能同时处理文本和图像信息,提供准确全面的检索结果。

Project Cover

SearchMyDocs.ai

SearchMyDocs.ai是一款支持多种文件格式的智能文档搜索和对话系统。该平台采用先进的AI技术,实现精准信息检索,同时确保数据隐私和安全。用户可以轻松上传PDF、Markdown、Word等格式文档,并通过智能交互快速获取所需信息。该系统还具备OCR功能,支持JPEG、PNG、TIFF等图片格式的文本识别,进一步扩展了文档搜索和分析的范围。这一创新解决方案适用于个人和专业用户,有效提升文档管理效率和信息检索速度。

Project Cover

ragna

Ragna是一个RAG(检索增强生成)编排框架,旨在简化AI应用开发过程。该框架支持Python API、REST API和Web应用界面,方便开发者构建和部署基于RAG的智能系统。Ragna的设计注重灵活性和可扩展性,适应多种AI应用场景。该框架有助于加速智能解决方案的开发,促进AI技术在各领域的应用。

Project Cover

ir_datasets

ir_datasets是一个Python工具包,为信息检索领域的多种数据集提供统一接口。它可自动下载和处理公开数据集,并为非公开数据集提供获取指南。该工具支持Python和命令行使用,能处理大规模数据集,并修正已知问题。通过快速随机文档访问和灵活迭代切片等功能,ir_datasets简化了信息检索研究中的数据处理流程。

Project Cover

splade-cocondenser-selfdistil

SPLADE CoCondenser SelfDistil是一个专为段落检索设计的模型,结合了CoCondenser和自蒸馏技术。在MS MARCO开发集上,该模型展现出优秀性能,MRR@10达37.6,R@1000达98.4。通过整合查询扩展、文档扩展和词袋方法,并采用硬负样本采样和知识蒸馏技术,有效提升了稀疏神经IR模型的效果。这一模型为信息检索和自然语言处理领域的研究提供了有力工具。

Project Cover

opensearch-neural-sparse-encoding-doc-v2-distill

opensearch-neural-sparse-encoding-doc-v2-distill是一种先进的学习型稀疏检索模型,能将文档编码为30522维稀疏向量。该模型在BEIR基准测试中表现出色,展现了优秀的零样本性能和搜索相关性。其67M的参数量和0.504的平均NDCG@10分数,体现了模型的高效性。结合OpenSearch神经稀疏特性和Lucene倒排索引,可实现快速精准的文档检索。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号