#PDF解析

paper-qa - 高效PDF与文本文件问答工具

Github开源项目OpenAILLMPaperQAlangchainPDF解析

PaperQA是一款轻量级工具，专为从PDF和文本文件中进行问答设计，通过内嵌引用确保答案准确。默认使用OpenAI Embeddings，支持与langchain和开源模型结合。其流程包括文档向量化、查询向量化、文档搜索、摘要生成、相关摘要选择，并生成最终答案。PaperQA支持异步操作，兼容多种LLM，并提供多种自定义和扩展选项，如本地向量存储和Zotero数据库集成，是科研人员高效处理文档问答的理想选择。

talk2arxiv - 一款专为学术论文PDF设计的开源响应式RAG（检索增强生成）系统

Github开源项目PDF解析文本嵌入Talk2Arxiv向量数据库集成GROBID

Talk2Arxiv是一款专为学术论文PDF设计的开源响应式RAG（检索增强生成）系统，利用GROBID进行高效文本提取，并使用Cohere的EmbedV3模型进行精准文本嵌入。该系统不仅能缓存研究论文，减少重复处理，还通过Qdrant进行存储和查询，确保内容的相关性和准确性。前端采用Typescript, ReactJS等技术搭建，后端依赖Flask, Gunicorn实现，为学术研究提供流畅高效的在线阅读体验。

nlm-ingestor - 多格式文档解析器助力RAG优化

Github开源项目PDF解析RAGHTML解析Apache Tikanlm-ingestor

nlm-ingestor是一个开源的文档解析工具，专门针对RAG(检索增强生成)进行了优化。它支持PDF、HTML和文本等多种格式，提供章节划分、段落链接和表格识别等精确的内容结构化功能。该项目整合了改进版Apache Tika和OCR技术，能够高效处理大型文档。nlm-ingestor不依赖特殊硬件，为开发者提供了强大的基础设施，有助于提高LLM项目的检索和生成性能。

llmsherpa - PDF智能解析与大语言模型应用框架

Github开源项目向量搜索PDF解析LLM SherpaLayoutPDFReader文档结构分析

LLM Sherpa是一个开源项目，提供LayoutPDFReader工具用于智能解析PDF文档结构，包括章节、段落和表格。该工具支持精确分块并保留上下文信息，适用于向量搜索和生成式AI应用。项目提供API接口，便于集成到各类大语言模型应用中，如问答系统和文本摘要。LLM Sherpa简化了PDF处理流程，为开发者提供了高效的大语言模型应用开发框架。

officeParser - 多格式办公文档文本提取Node.js库

Github开源项目PDF解析officeParser文本解析Office文件Node.js库

officeParser是一个Node.js库，用于从多种办公文档格式中提取文本内容。支持docx、pptx、xlsx、odt、odp、ods和pdf等文件类型，提供API和命令行接口。该库可配置性强，支持文件路径和缓冲区输入，提供回调和Promise两种使用方式。officeParser能高效解析并保持文档结构和顺序，适用于各种办公文档处理需求。

CBook-150K - 中文图书语料集合支持PDF EPUB MOBI格式

Github开源项目PDF解析中文图书语料MD5链接百度云盘EPUB解析

CBook-150K是一个包含约15万本中文图书的语料集合，基于开源MD5图书链接构建。项目支持PDF、EPUB和MOBI格式解析，提供MD5链接目录结构和快速转存方法。介绍了各种电子书格式的解析技术，为自然语言处理研究提供中文文本资源。该语料集合仅供科研用途。

gptpdf - gptpdf 高效智能的PDF转Markdown工具

Github开源项目OpenAI APIPDF解析gptpdfmarkdown转换大型视觉模型

gptpdf是一个基于VLLM技术的PDF解析工具，可将PDF文件转换为Markdown格式。该工具能够处理复杂排版、数学公式、表格和图表，保持原文档的格式和结构。gptpdf代码简洁，支持本地使用和Google Colab环境，并提供API接口以适应不同需求。它适用于文档处理和学术研究等场景，能够提高工作效率。

pdfminer.six - Python开源PDF文本提取与分析库

Github开源项目PDF解析Python库文本提取文档分析pdfminer.six

pdfminer.six是一个开源Python库，用于从PDF文档中提取和分析文本数据。该库能够提取文本内容及其位置、字体和颜色信息，支持PDF-1.7规范、CJK语言和垂直书写。pdfminer.six还可提取图像、目录和交互式表单，支持多种压缩和加密方式。其模块化设计便于扩展，适用于多种PDF分析场景。该项目是PDFMiner的社区维护分支，提供了全面的PDF文档分析功能。

papermage - 统一工具包助力处理表示和操作视觉文档

Github开源项目文档处理PDF解析实体识别数据结构papermage

papermage是一款专门用于处理PDF文档的开源工具包。它能够创建Document对象、解析文档结构、提取文本和元数据。该工具支持多层次文档分割，包括页面、行和句子等，并可在不同层次间自由导航。papermage允许保存和加载Document对象，还支持通过自定义预测器进行功能扩展。这个统一平台为处理、表示和操作视觉丰富的文档提供了便利。

llmdocparser - 基于LLM的智能PDF解析与内容分析工具包

Github开源项目多模态模型文本分析PDF解析布局分析LLMDocParser

LLMDocParser是一款智能PDF解析和内容分析工具包，结合大型语言模型(LLM)技术。该工具采用布局分析模型识别PDF文档中的文本、标题、图表等元素，并通过多模态模型实现智能解析。支持Azure、OpenAI等多种LLM平台，LLMDocParser能高效处理复杂PDF文档，为RAG解决方案提供结构化文本输出，适用于各类文档智能化处理场景。

OpenChatPaper - 智能对话式论文阅读助手开源实现文献解析

Github开源项目OpenAI APIChatGPTPDF解析对话式AI论文阅读助手

OpenChatPaper是一个开源的智能论文阅读助手，基于OpenAI ChatGPT API开发。该项目通过对话方式辅助用户快速理解和分析学术论文，具备PDF解析、动态上下文管理和多语言交互功能。OpenChatPaper提供在线演示，并提供详细的本地部署说明。项目采用贪婪动态上下文和上下文压缩等技术，优化对话体验和长文本处理。这一工具旨在提升学术研究效率，为研究人员提供便捷的论文阅读和分析方案。

docling - 高效的多格式文档解析和转换工具

Github开源项目CLI工具文档解析PDF解析DoclingOCR支持

Docling是一个多功能的文档解析工具，支持解析PDF、DOCX、PPTX等常见格式，并可输出为Markdown和JSON格式。其PDF高级功能涵盖页面布局分析、阅读顺序和表格结构识别。工具提供统一的DoclingDocument表示格式，支持与LlamaIndex和LangChain的集成，适合信息检索和问答应用。此外，它支持扫描PDF的OCR，并提供便捷的命令行工具。即将支持方程、代码和元数据的提取。安装简单，兼容多平台和多架构。详情请参阅在线文档。

相关文章

Article Cover

PaperQA: 革新科学研究的智能问答系统

Article Cover

Paper-QA: 基于大语言模型的智能文献问答系统

Article Cover

Talk2Arxiv：与任何ArXiv论文对话的开源RAG系统

Article Cover

GPTPDF：利用GPT技术解析PDF文件的创新工具

Article Cover

CBook-150K：复旦大学自然语言处理实验室的中文图书语料库

Article Cover

GPTPDF: 革新PDF解析的智能工具

Article Cover

CBook-150K: 复旦大学NLP实验室推出的大规模中文图书语料库

Article Cover

LLM Sherpa: 智能PDF解析助手加速大语言模型应用开发

Article Cover

nlm-ingestor: 一款强大的文档解析工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号