Logo

#PDF处理

PDF GPT: 革新PDF文档交互体验的AI助手

2 个月前
Cover of PDF GPT: 革新PDF文档交互体验的AI助手

PyMuPDF-Utilities: 强大的PDF处理工具箱

2 个月前
Cover of PyMuPDF-Utilities: 强大的PDF处理工具箱

OpenContracts:免费开源的文档分析平台

2 个月前
Cover of OpenContracts:免费开源的文档分析平台

AnyParser: 精确、私密且可配置的文档检索大语言模型

2 个月前
Cover of AnyParser: 精确、私密且可配置的文档检索大语言模型

LlamaParse: 高效解析复杂文档的先进工具

2 个月前
Cover of LlamaParse: 高效解析复杂文档的先进工具

PDFDeal: 提升PDF处理效率的强大Python工具

2 个月前
Cover of PDFDeal: 提升PDF处理效率的强大Python工具

gImageReader: 一款强大的开源OCR软件

2 个月前
Cover of gImageReader: 一款强大的开源OCR软件

PyMuPDF: 强大的 Python PDF 处理库

2 个月前
Cover of PyMuPDF: 强大的 Python PDF 处理库

Nougat: 革新学术文档的智能解析技术

2 个月前
Cover of Nougat: 革新学术文档的智能解析技术

MinerU:一站式开源高质量数据提取工具

2 个月前
Cover of MinerU:一站式开源高质量数据提取工具

相关项目

Project Cover
grobid
GROBID 是一个将PDF等原始文档转换为结构化XML/TEI编码文档的机器学习库,专为技术和科学出版物设计。功能包括文献标题和参考文献的提取、全文结构化以及PDF坐标解析等。提供丰富的Web服务API、Docker镜像和批处理能力,适用于高效大规模的文献处理,适合生产环境。其深度学习模型显著提升解析精度,并已被众多科研机构和平台采用,支持Linux和macOS操作系统。
Project Cover
llama_parse
LlamaParse是LlamaIndex开发的文件解析API,旨在提高LlamaIndex框架的检索和上下文扩充能力。该API支持多种文件格式,可将解析结果输出为Markdown或纯文本。LlamaParse提供每日1000页的免费解析额度,支持异步和批量处理,并可与SimpleDirectoryReader集成,简化文件处理和索引流程。通过直接集成到LlamaIndex中,LlamaParse为开发者提供了更高效的文档处理解决方案。
Project Cover
Stirling-PDF
Stirling-PDF是一款功能全面的开源PDF处理工具,支持本地部署。它提供PDF分割、合并、转换、重组、添加图片、旋转和压缩等多项功能。该工具基于Spring Boot开发,集成PDFBox和LibreOffice等技术,通过Docker快速部署。支持暗黑模式、并行处理和API集成,可满足各类PDF处理需求。
Project Cover
MinerU
MinerU是一个开源的PDF转换工具,专注于科研文献处理。它能将PDF转换为markdown和JSON等机器可读格式,同时保留原文档结构和语义连贯性。该工具支持移除页眉页脚,处理多列布局,提取图像和表格,以及将公式转换为LaTeX格式。MinerU兼容多种操作系统和硬件环境,可在CPU或GPU上运行,为大规模语言模型的发展提供数据支持。
Project Cover
nougat
Nougat是一个开源的神经网络模型,专门用于解析学术PDF文档。该模型能够理解LaTeX数学公式和表格,支持单个文件和批量处理。Nougat提供命令行界面和API接口,输出采用轻量级标记语言,与Mathpix Markdown兼容。此外,Nougat还支持数据集生成、模型训练和评估功能。项目托管在GitHub上,可通过pip安装使用。
Project Cover
any-parser
AnyParser作为一款专业的API工具,可将PDF、图像和图表等非结构化数据精确转换为结构化格式。该工具支持从PDF提取文本及布局,从图像中提取表格数据,并能将结果转换为Markdown格式。AnyParser具有简便的安装过程和API密钥配置,并提供了详尽的使用示例。这使得AI工程师和金融分析师能够高效处理各种复杂的数据提取任务。
Project Cover
go-fitz
go-fitz是对MuPDF的fitz库的Go语言封装,支持从PDF、EPUB和MOBI文档中提取页面内容,并可输出为图像、文本、HTML或SVG格式。该项目具有多种构建标签,适应不同使用场景。go-fitz主要用于处理和转换多种文档格式,可集成到需要文档内容提取和转换功能的Go应用中。go-fitz支持extlib、static、pkgconfig和musl等构建标签,允许用户根据需求选择使用外部MuPDF库或静态链接。项目提供了示例代码,展示了如何使用go-fitz提取PDF页面并保存为JPEG图像。
Project Cover
PyMuPDF
PyMuPDF是一个高性能的Python库,用于处理PDF及其他文档格式。它支持数据提取、分析、转换和操作,兼容Python 3.8及以上版本。该库提供简洁的API,可高效处理文档页面和提取文本。PyMuPDF还支持字体子集创建和OCR等可选功能,适用于各种文档处理任务。无需额外依赖,安装便捷,是文档处理领域的实用工具。
Project Cover
langchain-ask-pdf
这款Python应用程序读取PDF文档并将其分割成较小文本块,同时使用OpenAI技术创建文本向量表示,针对自然语言提问。本应用找到与提问语义相似的文本块并生成回答。应用还利用Streamlit构建用户界面,借助Langchain处理LLM。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号