PyMuPDF
PyMuPDF 是一个高性能的 Python 库,用于 PDF(和其他)文档 的数据提取、分析、转换和操作。
社区
加入我们的 Discord 频道:#pymupdf
安装
PyMuPDF 需要 Python 3.8 或更高版本,使用 pip 安装:
pip install PyMuPDF
没有强制性的外部依赖。但是,一些可选功能只有在安装额外的包后才能使用。
你也可以访问 PyMuPDF.io 尝试不安装直接使用。
使用
基本用法如下:
import pymupdf # 导入 pymupdf 库
doc = pymupdf.open("example.pdf") # 打开文档
for page in doc: # 遍历文档页面
text = page.get_text() # 获取以 UTF-8 编码的纯文本
文档
完整文档可在 pymupdf.readthedocs.io 找到。
可选功能
- fontTools 用于创建字体子集。
- pymupdf-fonts 包含一些适用于文本输出的优质字体。
- Tesseract-OCR 用于图像和文档页面的光学字符识别。
关于
PyMuPDF 为 MuPDF(一个轻量级的 PDF、XPS 和 电子书 查看器、渲染器和工具包)添加了 Python 绑定和抽象。PyMuPDF 和 MuPDF 均由 Artifex Software, Inc 维护和开发。
PyMuPDF 最初由 Jorj X. McKie 编写。
许可和版权
PyMuPDF 可在开源 AGPL 和商业许可协议下使用。如果你认为无法满足 AGPL 的要求,请联系 Artifex 以获取有关商业许可的更多信息。