#PDF表格提取
gmft - 轻量级高性能PDF表格提取开源库
Github开源项目高性能gmftPDF表格提取表格转换轻量级工具
gmft是一个开源的PDF表格提取库,采用微软Table Transformers技术实现高质量表格识别和结构化。支持Pandas dataframe等多种输出格式,无需GPU即可高速运行。gmft依赖少、安装简单,提供模块化设计和灵活配置,在多种表格提取方案对比中表现优异。
camelot - 专业的PDF表格数据提取Python库
Github开源项目数据分析Python库PDF表格提取Camelot
Camelot是一个开源的PDF表格提取Python库,提供高度可配置的设置以精确控制提取过程。它支持将提取的表格直接转换为pandas DataFrame,并可输出为CSV、JSON、Excel等多种格式。Camelot还提供了提取质量评估指标,有助于筛选高质量结果。这个工具适用于需要从PDF文档中提取结构化数据的数据分析师和开发者。