将您的文档转化为数据!
Français | Portuguese | Spanish | 中文
-
Parsr 是一个最小足迹的文档(图像、pdf、docx、eml)清理、解析和提取工具链,可以生成现成的、有组织的和可用的 JSON、Markdown (MD)、CSV/Pandas DF 或 TXT 格式的数据。
-
它为分析师、数据科学家和开发人员提供了干净的结构化和标签丰富的信息集,适用于数据录入、文档分析自动化、归档等各种即用型应用。
-
目前,Parsr 可以执行:文档清理、层级再生(词、行、段落)、检测_标题、表格、列表、目录、页码、页头/页尾、链接_等内容。查看所有功能。
目录
快速开始
安装
-- 高级安装指南在这里 --
最快的安装并运行 Parsr API 的方式是通过docker 镜像:
docker pull axarev/parsr
如果还希望安装用于发送文档和可视化结果的 GUI:
docker pull axarev/parsr-ui-localhost
注意:Parsr 也可以裸机安装(不通过 Docker 容器),相关步骤在安装指南中有详细说明。
用法
-- 高级使用指南在这里 --
要运行API,执行:
docker run -p 3001:3001 axarev/parsr
这将在 http://localhost:3001 上启动。 请参考文档了解API 的用法。
-
要访问 Parsr API 的 python 客户端,执行:
pip install parsr-client
要示例 Jupyter 笔记本,请前往 jupyter demo。
- 要使用 GUI 工具(需要 API 先运行),执行:
然后,通过 http://localhost:8080 访问。docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
请参考配置文档来解释 GUI 查看器中可配置的选项。
文档
所有文档文件可在这里找到。
贡献
请参考贡献指南。
第三方许可
其依赖的第三方库许可证:
- QPDF: Apache http://qpdf.sourceforge.net
- ImageMagick: Apache 2.0 https://imagemagick.org/script/license.php
- Pdfminer.six: MIT https://github.com/pdfminer/pdfminer.six/blob/master/LICENSE
- PDF.js: Apache 2.0 https://github.com/mozilla/pdf.js
- Tesseract: Apache 2.0 https://github.com/tesseract-ocr/tesseract
- Camelot: MIT https://github.com/camelot-dev/camelot
- MuPDF(可选依赖项): AGPL https://mupdf.com/license.html
- Pandoc(可选依赖项): GPL https://github.com/jgm/pandoc
许可证
版权所有 2020 AXA Group Operations S.A.
根据 Apache 2.0 许可证授权(请参阅 LICENSE 文件)。