MinerU
MinerU是一个开源的PDF转换工具,专注于科研文献处理。它能将PDF转换为markdown和JSON等机器可读格式,同时保留原文档结构和语义连贯性。该工具支持移除页眉页脚,处理多列布局,提取图像和表格,以及将公式转换为LaTeX格式。MinerU兼容多种操作系统和硬件环境,可在CPU或GPU上运行,为大规模语言模型的发展提供数据支持。