安装
前提条件:python3.10
安装依赖
linux/osx
apt-get/yum/brew install libreoffice
windows
安装 libreoffice
将 "安装目录\LibreOffice\program" 添加到环境变量 PATH 中
安装 Magic-Doc
pip install fairy-doc[cpu] # CPU 版本
或
pip install fairy-doc[gpu] # GPU 版本
简介
Magic-Doc 是一个轻量级开源工具,允许用户将多种文件类型(PPT/PPTX/DOC/DOCX/PDF)转换为 Markdown。它支持本地文件和 S3 文件。
示例
# 对于本地文件
from magic_doc.docconv import DocConverter, S3Config
converter = DocConverter(s3_config=None)
markdown_content, time_cost = converter.convert("some_doc.pptx", conv_timeout=300)
# 对于存储在 AWS S3 的远程文件
from magic_doc.docconv import DocConverter, S3Config
s3_config = S3Config(ak='${ak}', sk='${sk}', endpoint='${endpoint}')
converter = DocConverter(s3_config=s3_config)
markdown_content, time_cost = converter.convert("s3://some_bucket/some_doc.pptx", conv_timeout=300)
性能
环境:AMD EPYC 7742 64核处理器,NVIDIA A100,Centos 7
文件类型 | 速度 |
---|---|
PDF(数字) | 347(页/秒) |
PDF(OCR) | 2.7(页/秒) |
PPT | 20(页/秒) |
PPTX | 149(页/秒) |
DOC | 600(页/秒) |
DOCX | 1482(页/秒) |
感谢所有贡献者:
致谢
🖊️ 引用
@misc{2024magic-doc,
title={Magic-Doc: 一个将多种文件类型转换为Markdown的工具包},
author={Magic-Doc 贡献者},
howpublished = {\url{https://github.com/InternLM/magic-doc}},
year={2024}
}
许可证
本项目采用 Apache 2.0 许可证。