Pathway 的 LLM(大语言模型)应用 允许您快速将 AI 应用投产,这些应用使用您数据源中最新的知识提供高度准确的 RAG 大规模应用。
这些应用程序可以连接和同步(所有新数据的添加、删除、更新)您的文件系统、Google Drive、Sharepoint、S3、Kafka、PostgreSQL、实时数据 API 数据源。它们不需要单独设置的基础设施依赖。
应用模板
此仓库中提供的应用模板可以扩展到数百万页文档。其中一些为了简化操作而优化,有些则优化了惊人的准确性。选择最适合您的模板。您可以直接使用它,也可以更改管道中的某些步骤——例如,如果您想添加新的数据源,或将矢量索引更改为混合索引,只需一行代码即可更改。
应用程序(模板) | 描述 |
---|---|
问答 RAG 应用 | 基本的端到端 RAG 应用程序。一个问答管道,它使用您选择的 GPT 模型来为您的文档(PDF、DOCX 等)上的查询提供答案,并连接到实时数据源(文件、Google Drive、Sharepoint 等)。您还可以试用一个演示 REST 端点。 |
实时文档索引(向量存储/检索) | 一个为 RAG 提供实时文档索引的管道,作为向量存储服务。它对连接到的数据源(文件、Google Drive、Sharepoint 等)的文档(PDF、DOCX 等)进行实时索引。它可以用于任何前端,或作为 Langchain 或 Llamaindex 应用程序的检索后端。您还可以试用一个演示 REST 端点。 |
使用 GPT4o 的多模态 RAG 管道 | 使用 GPT-4o 进行解析阶段的多模态 RAG,用于索引来自连接数据源(文件、Google Drive、Sharepoint 等)的 PDF 和其他文档。它非常适合从文件夹中的非结构化财务文件中提取信息(包括图表和表格),并在文档更改或新增时更新结果。 |
自适应 RAG 应用 | 一个使用 Pathway 开发的自适应 RAG 技术来减少 RAG 代币成本至 4 倍的 RAG 应用,同时保持准确性。 |
使用 Mistral 和 Ollama 的私有 RAG 应用 | 使用 Pathway、Mistral 和 Ollama 的完全私有(本地)版本的 demo-question-answering RAG 管道。 |
非结构化到 SQL 管道 + SQL 问答 | 连接到非结构化财务数据源(财务报告 PDF),将数据结构化为 SQL,并加载到 PostgreSQL 表中的 RAG 示例。它还通过使用 LLM 将自然语言用户查询翻译为 SQL 并在 PostgreSQL 表上执行查询来回答这些财务文档的问题。 |
Google Drive 上的答案变化时的警报 | 向您的私人数据(文档)询问问题,并告诉应用在响应发生变化时通知您。该应用始终连接到您的 Google Docs 文件夹,并监听更改。每当新的相关信息添加到数据源时,LLM 会决定响应是否发生实质性变化,并通过 Slack 消息通知用户。 |
这些 LLM 应用是如何工作的?
这些应用程序可以作为Docker 容器运行,并暴露一个HTTP API 以连接前端。为了快速测试和演示,一些应用模板还包括一个可选的通过该 API 连接的 Streamlit UI。
这些应用依赖于 Pathway 框架 进行数据源同步和服务 API 请求(Pathway 是一个内置 Rust 引擎的独立 Python 库)。它们为您提供了一种简单统一的应用逻辑后端、嵌入、检索、LLM 技术栈。无需为您的 Gen AI 应用整合和维护单独的模块:向量数据库(例如 Pinecone/Weaviate/Qdrant)+ 缓存(例如 Redis)+ API 框架(例如 Fast API)。
入门
此仓库中的每个 应用模板 都包含有关如何运行该应用的 README.md 文件。
您还可以在 Pathway 网站上找到更多现成可运行的代码模板。
一些视觉亮点
通过多模态 RAG 实时轻松提取和组织来自 PDF、文档等的表格和图表数据:
(查看 使用 GPT4o 的多模态 RAG 管道
以了解完整的管道运作。您也可以查看 非结构化到 SQL 管道
以了解使用非多模态模型的最小示例。)
自动化实时知识挖掘和警报:
(查看 Google Drive 上的答案变化时的警报
应用示例。)
自行动手视频
▶️ Pathway LLM 应用构建介绍 - by Jan Chorowski
▶️ 11 分钟构建一个真实世界的 LLM 应用 - by Pau Labarta Bajo
故障排除
要提供反馈或报告错误,请在我们的问题跟踪器上提出问题。
贡献
欢迎任何希望为该项目做出贡献的人,不论是文档、功能、错误修复、代码清理、测试或代码审查。如果这是您第一次为 Github 项目做出贡献,请查看入门指南。
如果您想要做出一些需要更多工作的贡献,请在 Pathway Discord 服务器(#get-help)上举手,告诉我们您的计划!