Docling是一个由IBM推出的开源项目,旨在提高文档解析的效率和准确性。它可以轻松快速地解析各类文档,并将其导出为所需的格式。
功能特色
Docling支持多种常用文档格式的读取和转换,包括PDF、DOCX、PPTX、图像、HTML、AsciiDoc和Markdown等。用户可将这些格式的文档导出为Markdown和JSON文件,并进行更为复杂的文档分析和处理。
Docling的PDF文档处理能力尤为强大,能够理解页面布局、读取顺序和表格结构。此外,该工具还提供OCR支持,方便处理扫描版本的PDF文件。
值得一提的是,Docling采用了统一且富有表现力的DoclingDocument格式,这使其能够与LlamaIndex和LangChain等强大的RAG/QA(信息检索/问答)应用程序轻松集成。用户也可以通过简单的命令行接口(CLI)来实现文档的解析与导出。
未来计划
开发团队计划在未来推出多项新功能,例如公式和代码提取、元数据提取(包括标题、作者、参考文献和语言信息)以及原生的LangChain扩展支持。
安装指南
使用Docling十分简单,只需要通过包管理工具(如pip)安装即可:
pip install docling
Docling兼容macOS、Linux和Windows环境,并支持x86_64和arm64架构。更多详细的安装指南可在官方网站的文档中找到。
入门指南
使用Docling进行文档转换也很简单,例如可以使用convert()
函数来转换文档:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # 文档的本地路径或URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # 输出结果为Markdown格式
访问入门指南可以获取更多关于功能调优和高级能力利用的示例。
支持与帮助
用户如有任何问题,可以通过讨论区与开发团队联系。
技术报告和贡献
关于Docling的详细技术信息,可参考其技术报告。若感兴趣加入贡献行列,请查阅贡献指南。
版权信息
Docling在MIT许可证下发布,具体的模型使用许可证请查阅原始包中的说明。
Docling是IBM对开源AI社区的心意表达,旨在助力更多开发者便捷地进行文档解析和数据处理。