ExtractThinker入门指南 - 基于LLM的灵活文档智能处理库

Ray

ExtractThinker

ExtractThinker入门指南 - 基于LLM的灵活文档智能处理库

ExtractThinker是一个专注于智能文档处理(IDP)的开源项目,它提供了基于大型语言模型(LLM)的ORM风格交互,可以实现灵活而强大的文档数据提取工作流。如果你正在寻找一个高效的文档数据提取解决方案,ExtractThinker绝对值得一试。

🌟 主要特性

ExtractThinker具有以下几个突出特点:

支持多种文档加载器,包括Tesseract OCR、Azure Form Recognizer、AWS TextExtract、Google Document AI等。
通过契约定义实现可定制化的数据提取。
异步处理机制,提高文档处理效率。
内置支持多种文档格式。
文件与LLM之间的ORM风格交互。

ExtractThinker特性

📦 安装

使用pip可以轻松安装ExtractThinker:

pip install extract_thinker

🚀 快速开始

以下是一个使用ExtractThinker提取发票数据的简单示例:

import os
from dotenv import load_dotenv
from extract_thinker import DocumentLoaderTesseract, Extractor, Contract

load_dotenv()
cwd = os.getcwd()

class InvoiceContract(Contract):
    invoice_number: str
    invoice_date: str

tesseract_path = os.getenv("TESSERACT_PATH")
test_file_path = os.path.join(cwd, "test_images", "invoice.png")

extractor = Extractor()
extractor.load_document_loader(
    DocumentLoaderTesseract(tesseract_path)
)
extractor.load_llm("claude-3-haiku-20240307")

result = extractor.extract(test_file_path, InvoiceContract)

print("Invoice Number: ", result.invoice_number)
print("Invoice Date: ", result.invoice_date)