PyMuPDF-实用工具

这个仓库包含了一些演示和示例，帮助您使用PyMuPDF创建PDF、XPS和电子书应用程序。

免责声明

一些示例最初是在软件包早期创建的。随着时间的推移，API的变更可能导致脚本出现差异。我们可能不会在每次发布更新时都更新它们，因此无法保证它们都能按照最初的预期工作。如果您将这些脚本视为它们本来的意图——示例，那么它们将为您提供一个良好的起点。

PyMuPDF现在（v1.23.x）也支持将纯文本文件作为Document处理，就像PDF、XPS、EPUB等一样。它们的行为与任何其他文档相同：您可以搜索和提取文本，将页面渲染为位图等。

这为访问程序源代码、markdown文档以及基本上任何文件提供了方法，只要它们是以ASCII、UTF-8或UTF-16编码的。

请导航到文本文档文件夹了解详情。

在新的OCR文件夹中现在有两个演示示例，分别使用MuPDF OCR、Tesseract OCR和easyocr。

要查看新OCR功能的更多"交互式"演示，请也查看jupyter-notebooks文件夹中的笔记本集合。

在v1.18.6中，目录（TOC）的处理得到了显著改进。因此，我创建了另一个新的文件夹专门处理这个主题。

PyMuPDF v1.17.6的新功能是能够在现有PDF中替换选定的字体。这是一组两个脚本及其文档，位于此文件夹中。

PyMuPDF的功能在这方面得到了扩展。因此，我们创建了这个专门的文件夹来包含专用脚本、描述和示例。

PyMuPDF的功能在这方面得到了扩展。因此，我们将示例脚本和扩展描述移到了它自己的文件夹中。

文本提取脚本已移至这个单独的文件夹。它们演示了从通用文档（不仅仅是PDF）提取文本的替代方法，在简单性和保持布局忠实的文本输出之间权衡。

最先进的脚本fitzcli.py生成的文本与原始文档布局非常相似，包括多列文本、环绕图像的文本等。

一个新的文件夹，包含以交互方式解释基本概念的笔记本。随着时间的推移将会扩展。

这个文件夹包含了一系列用于分析表格的脚本。这里的目的也是随着时间的推移扩展示例。已经有一个脚本可以将表格单元格提取到pandas DataFrame（保存为EXCEL），如果它们由网格线定义的话。这包括任何多行单元格内容。