更简单易用地处理PDF,利用Doc2X强大的文档转换能力进行保留格式的文件转换/RAG增强。
介绍
Doc2X支持
Doc2X是一款新型的通用文档OCR工具,可以将图像或PDF文件转换为带有公式和文本格式的Markdown/LaTeX文本。在大多数场景下,它的表现优于类似工具。pdfdeal
提供了抽象封装的类来使用Doc2X进行请求。
处理PDF
使用各种OCR或PDF识别工具识别图像并将其添加到原始文本中。您可以将输出格式设置为PDF,这将确保识别的文本在新PDF中保持与原始页码相同。它还提供了各种实用的文件处理工具。
使用Doc2X转换和预处理PDF后,与graphrag、Dify和FastGPT等知识库应用一起使用时,可以获得更好的识别率。
案例
graphrag
请参阅如何与graphrag一起使用,它不支持识别pdf,但您可以使用CLI工具doc2x
将其转换为txt文档以供使用。
Fastgpt/Dify或其他RAG系统
对于知识库应用,您可以使用pdfdeal
内置的各种文档增强功能,如将图像上传到远程存储服务、按段落添加换行等。请参阅与RAG应用集成。
RAG系统插件集成
- 您可以在FastGPT 4.8.9及以后版本中找到支持PDF/图像转换的Doc2X插件。
文档
详情请参阅文档
或查看文档仓库pdfdeal-docs。
快速开始
详情请参阅文档
安装
从PyPI安装:
pip install --upgrade pdfdeal
使用Doc2X作为PDF处理工具
from pdfdeal import Doc2X
from pdfdeal import get_files
client = Doc2X()
file_list, rename = get_files(path="tests/pdf", mode="pdf", out="pdf")
success, failed, flag = client.pdfdeal(
pdf_file=file_list,
output_path="./Output/test/multiple/pdfdeal",
output_names=rename,
)
print(success)
print(failed)
print(flag)
使用pytesseract作为OCR引擎
使用"pytesseract"时,请确保先安装tesseract:
pip install 'pdfdeal[pytesseract]'
from pdfdeal import deal_pdf, get_files
files, rename = get_files("tests/pdf", "pdf", "md")
output_path, failed, flag = deal_pdf(
pdf_file=files,
output_format="md",
ocr="pytesseract",
language=["eng"],
output_path="Output",
output_names=rename,
)
for f in output_path:
print(f"已将处理后的文件保存至 {f}")
详细信息请参阅在线文档。