docling-models

项目介绍：Docling Models

Docling Models 是一个专门为 PDF 文档转换包 docling 提供支持的模型集。该项目主要致力于通过机器学习技术来解析和理解 PDF 文档的布局和结构，为文档自动化处理提供强大的技术支持。

布局模型

布局模型是 Docling Models 的核心组件之一，它利用 RT-DETR 模型来识别 PDF 页面中的不同布局组件。具体而言，布局模型能够检测到以下标签：Caption（说明文字）、Footnote（脚注）、Formula（公式）、List-item（列表项）、Page-footer（页脚）、Page-header（页眉）、Picture（图片）、Section-header（章节标题）、Table（表格）、Text（文本）和 Title（标题）。

为了评估这个模型的性能，研究人员将其与标准的对象检测方法在 DocLayNet 数据集上的表现进行了对比。结果表明，与人类评估相比，尽管模型在某些标签上的准确率略有提高，但人类依然在某些标签的检测上更为准确。然而，在部分区域，如表格（Table）和文本（Text）方面，模型已经达到了较高的准确度，接近甚至超过人类评估水平。

TableFormer

TableFormer 是另一个关键模型，用于识别和解析文档中的表格结构。首先，它利用布局模型预测的表格区域来精确定位不同的表格，然后详细分析每个表格的结构。与其他表格解析工具相比，TableFormer 在识别复杂表格结构方面表现出了卓越的性能。例如，在简单和复杂表格上的识别准确率分别达到了95.4%和90.1%，整体表现优于市面上的主流工具。