Project Icon

thepipe

全能多模态数据提取API 为LLM开发赋能

thepipe是一款多功能API,支持从PDF、网页、视频等多种来源提取markdown、表格和图像数据。该工具与GPT-4等视觉语言模型兼容,可轻松集成各类LLM和向量数据库。thepipe具备AI驱动的文件类型识别、版面分析和结构化数据提取能力,为多模态LLM开发提供综合支持。开发者可选择云端服务或本地部署方式使用。

从PDF、URL、幻灯片、视频等源提取markdown和视觉内容,为多模态LLM做好准备。⚡

thepi.pe是一个API,可以通过thepipe.scrape抓取多模态数据,或通过thepipe.extract从广泛的源中提取结构化数据。它专为与GPT-4o等视觉语言模型对接而设计,并可与任何LLM或向量数据库无缝协作。您可以立即使用托管云服务,或在本地运行。

特性 🌟

  • 从任何文档或网页提取markdown、表格和图像
  • 从任何文档或网页提取复杂的结构化数据
  • 与LLM、向量数据库和RAG框架开箱即用
  • AI原生文件类型检测、布局分析和结构化数据提取
  • 适用于视频、音频和图像源的多模态抓取

5分钟快速上手 🚀

thepi.pe可以读取多种文件类型和网络源,因此需要一些依赖项。它还需要视觉语言模型推理来实现AI提取功能。出于这些原因,我们在thepi.pe提供了一个开箱即用的API。

详细的设置说明,请参阅文档

pip install thepipe-api

托管API(Python)

from thepipe.scraper import scrape_file
from thepipe.core import chunks_to_messages
from openai import OpenAI

# 抓取markdown、表格、视觉内容
chunks = scrape_file(filepath="paper.pdf", ai_extraction=True)

# 使用干净、全面的数据调用LLM
client = OpenAI()
response = client.chat.completions.create(
    model="gpt-4o",
    messages=chunks_to_messages(chunks),
)

本地安装(Python)

对于本地安装,您可以使用以下命令:

pip install thepipe-api[local]

您必须设置并运行本地LLM服务器才能使用AI提取功能。您可以使用任何遵循OpenAI格式的本地LLM服务器(如LiteLLMOpenRouter)。接下来,将LLM_SERVER_BASE_URL环境变量设置为您的LLM服务器的端点URL,并将LLM_SERVER_API_KEY设置为您选择的LLM的API密钥。DEFAULT_VLM环境变量可以设置为您的LLM的模型名称。例如,如果使用OpenRouter,您可以使用openai/gpt-4o-mini,如果使用OpenAI,则使用gpt-4o-mini

为了充分发挥媒体丰富源的功能,您需要安装以下依赖项:

apt-get update && apt-get install -y git ffmpeg tesseract-ocr
python -m playwright install --with-deps chromium

使用thepi.pe时,请确保在函数调用中添加local=True

chunks = scrape_url(url="https://example.com", local=True)

您也可以从命令行使用thepi.pe:

thepipe path/to/folder --include_regex .*\.tsx --local

支持的文件类型 📚

来源输入类型多模态备注
网页httphttpsftp开头的URL✔️从网页抓取markdown、图片和表格。可使用ai_extraction从网页截图中提取AI内容
PDF.pdf✔️提取页面markdown和页面图片。可使用ai_extraction进行AI布局分析
Word文档.docx✔️提取文本、表格和图片
PowerPoint.pptx✔️从幻灯片中提取文本和图片
视频.mp4.mov.wmv✔️使用Whisper进行转录并提取帧
音频.mp3.wav✔️使用Whisper进行转录
Jupyter笔记本.ipynb✔️提取markdown、代码、输出和图片
电子表格.csv.xls.xlsx将每行转换为JSON格式,包括每行的索引
纯文本.txt.md.rtf简单文本提取
图片.jpg.jpeg.png✔️在纯文本模式下使用pytesseract进行OCR
ZIP文件.zip✔️提取并处理包含的文件
目录任何path/to/folder✔️递归处理目录中的所有文件
YouTube视频(存在已知问题)https://youtube.comhttps://www.youtube.com开头的YouTube视频URL✔️使用pytube下载视频,使用Whisper进行转录。为确保一致的提取,您可能需要修改pytube安装以发送有效的用户代理头(参见此问题)。
推文https://twitter.comhttps://x.com开头的URL✔️使用非官方API,可能会意外失效
GitHub仓库https://github.comhttps://www.github.com开头的GitHub仓库URL✔️需要GITHUB_TOKEN环境变量

工作原理 🛠️

thepi.pe使用计算机视觉模型和启发式方法从源内容中提取干净的内容,并对其进行处理以便与语言模型视觉transformer一起使用。thepi.pe的输出是包含源文档中所有内容的块列表。这些块可以轻松地使用thepipe.core.chunks_to_messages转换为与任何LLM或多模态模型兼容的提示格式,格式如下:

[
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "..."
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/jpeg;base64,..."
        }
      }
    ]
  }
]

您可以直接将这些消息输入模型,或者使用chunker.chunk_by_documentchunker.chunk_by_pagechunker.chunk_by_sectionchunker.chunk_semantic将这些消息分块,用于向量数据库(如ChromaDB)或RAG框架。可以使用.to_llamaindex将块转换为LlamaIndex的Document/ImageDocument。

⚠️ 请注意您的模型的令牌限制很重要。 GPT-4o在提示中包含太多图像时无法正常工作(参见此讨论)。要解决这个问题,可以使用具有更大上下文窗口的LLM,使用text_only=True提取更大的文档,或将块嵌入到向量数据库中。

赞助商

使用Cal.com预约我们

感谢Cal.com赞助本项目。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号