#PDF解析

paper-qa - 高效PDF与文本文件问答工具
Github开源项目OpenAILLMPaperQAlangchainPDF解析
PaperQA是一款轻量级工具,专为从PDF和文本文件中进行问答设计,通过内嵌引用确保答案准确。默认使用OpenAI Embeddings,支持与langchain和开源模型结合。其流程包括文档向量化、查询向量化、文档搜索、摘要生成、相关摘要选择,并生成最终答案。PaperQA支持异步操作,兼容多种LLM,并提供多种自定义和扩展选项,如本地向量存储和Zotero数据库集成,是科研人员高效处理文档问答的理想选择。
talk2arxiv - 一款专为学术论文PDF设计的开源响应式RAG(检索增强生成)系统
Github开源项目PDF解析文本嵌入Talk2Arxiv向量数据库集成GROBID
Talk2Arxiv是一款专为学术论文PDF设计的开源响应式RAG(检索增强生成)系统,利用GROBID进行高效文本提取,并使用Cohere的EmbedV3模型进行精准文本嵌入。该系统不仅能缓存研究论文,减少重复处理,还通过Qdrant进行存储和查询,确保内容的相关性和准确性。前端采用Typescript, ReactJS等技术搭建,后端依赖Flask, Gunicorn实现,为学术研究提供流畅高效的在线阅读体验。
nlm-ingestor - 多格式文档解析器助力RAG优化
Github开源项目PDF解析RAGHTML解析Apache Tikanlm-ingestor
nlm-ingestor是一个开源的文档解析工具,专门针对RAG(检索增强生成)进行了优化。它支持PDF、HTML和文本等多种格式,提供章节划分、段落链接和表格识别等精确的内容结构化功能。该项目整合了改进版Apache Tika和OCR技术,能够高效处理大型文档。nlm-ingestor不依赖特殊硬件,为开发者提供了强大的基础设施,有助于提高LLM项目的检索和生成性能。
llmsherpa - PDF智能解析与大语言模型应用框架
Github开源项目向量搜索PDF解析LLM SherpaLayoutPDFReader文档结构分析
LLM Sherpa是一个开源项目,提供LayoutPDFReader工具用于智能解析PDF文档结构,包括章节、段落和表格。该工具支持精确分块并保留上下文信息,适用于向量搜索和生成式AI应用。项目提供API接口,便于集成到各类大语言模型应用中,如问答系统和文本摘要。LLM Sherpa简化了PDF处理流程,为开发者提供了高效的大语言模型应用开发框架。
officeParser - 多格式办公文档文本提取Node.js库
Github开源项目PDF解析officeParser文本解析Office文件Node.js库
officeParser是一个Node.js库,用于从多种办公文档格式中提取文本内容。支持docx、pptx、xlsx、odt、odp、ods和pdf等文件类型,提供API和命令行接口。该库可配置性强,支持文件路径和缓冲区输入,提供回调和Promise两种使用方式。officeParser能高效解析并保持文档结构和顺序,适用于各种办公文档处理需求。
CBook-150K - 中文图书语料集合 支持PDF EPUB MOBI格式
Github开源项目PDF解析中文图书语料MD5链接百度云盘EPUB解析
CBook-150K是一个包含约15万本中文图书的语料集合,基于开源MD5图书链接构建。项目支持PDF、EPUB和MOBI格式解析,提供MD5链接目录结构和快速转存方法。介绍了各种电子书格式的解析技术,为自然语言处理研究提供中文文本资源。该语料集合仅供科研用途。
gptpdf - gptpdf 高效智能的PDF转Markdown工具
Github开源项目OpenAI APIPDF解析gptpdfmarkdown转换大型视觉模型
gptpdf是一个基于VLLM技术的PDF解析工具,可将PDF文件转换为Markdown格式。该工具能够处理复杂排版、数学公式、表格和图表,保持原文档的格式和结构。gptpdf代码简洁,支持本地使用和Google Colab环境,并提供API接口以适应不同需求。它适用于文档处理和学术研究等场景,能够提高工作效率。
pdfminer.six - Python开源PDF文本提取与分析库
Github开源项目PDF解析Python库文本提取文档分析pdfminer.six
pdfminer.six是一个开源Python库,用于从PDF文档中提取和分析文本数据。该库能够提取文本内容及其位置、字体和颜色信息,支持PDF-1.7规范、CJK语言和垂直书写。pdfminer.six还可提取图像、目录和交互式表单,支持多种压缩和加密方式。其模块化设计便于扩展,适用于多种PDF分析场景。该项目是PDFMiner的社区维护分支,提供了全面的PDF文档分析功能。
papermage - 统一工具包助力处理表示和操作视觉文档
Github开源项目文档处理PDF解析实体识别数据结构papermage
papermage是一款专门用于处理PDF文档的开源工具包。它能够创建Document对象、解析文档结构、提取文本和元数据。该工具支持多层次文档分割,包括页面、行和句子等,并可在不同层次间自由导航。papermage允许保存和加载Document对象,还支持通过自定义预测器进行功能扩展。这个统一平台为处理、表示和操作视觉丰富的文档提供了便利。
llmdocparser - 基于LLM的智能PDF解析与内容分析工具包
Github开源项目多模态模型文本分析PDF解析布局分析LLMDocParser
LLMDocParser是一款智能PDF解析和内容分析工具包,结合大型语言模型(LLM)技术。该工具采用布局分析模型识别PDF文档中的文本、标题、图表等元素,并通过多模态模型实现智能解析。支持Azure、OpenAI等多种LLM平台,LLMDocParser能高效处理复杂PDF文档,为RAG解决方案提供结构化文本输出,适用于各类文档智能化处理场景。
OpenChatPaper - 智能对话式论文阅读助手 开源实现文献解析
Github开源项目OpenAI APIChatGPTPDF解析对话式AI论文阅读助手
OpenChatPaper是一个开源的智能论文阅读助手,基于OpenAI ChatGPT API开发。该项目通过对话方式辅助用户快速理解和分析学术论文,具备PDF解析、动态上下文管理和多语言交互功能。OpenChatPaper提供在线演示,并提供详细的本地部署说明。项目采用贪婪动态上下文和上下文压缩等技术,优化对话体验和长文本处理。这一工具旨在提升学术研究效率,为研究人员提供便捷的论文阅读和分析方案。
docling - 高效的多格式文档解析和转换工具
Github开源项目CLI工具文档解析PDF解析DoclingOCR支持
Docling是一个多功能的文档解析工具,支持解析PDF、DOCX、PPTX等常见格式,并可输出为Markdown和JSON格式。其PDF高级功能涵盖页面布局分析、阅读顺序和表格结构识别。工具提供统一的DoclingDocument表示格式,支持与LlamaIndex和LangChain的集成,适合信息检索和问答应用。此外,它支持扫描PDF的OCR,并提供便捷的命令行工具。即将支持方程、代码和元数据的提取。安装简单,兼容多平台和多架构。详情请参阅在线文档。