#数据管道

rags - 使用自然语言从数据源创建RAG管道

RAGsStreamlitOpenAI数据管道自然语言处理Github开源项目

RAGs是一个基于Streamlit的应用程序，使用自然语言从数据源创建RAG管道。用户可以描述任务和参数，查看和修改生成的参数，并通过RAG代理查询数据。项目支持多种LLM和嵌入模型，默认使用OpenAI构建代理。该应用程序提供了一个标准的聊天界面，能够通过Top-K向量搜索或总结功能满足查询需求。了解更多关于安装和配置的信息，请访问GitHub页面或加入Discord社区。

mage-ai - 现代化的数据管道工具，替代传统工作流程控制系统

Mage数据管道Airflow替代数据集成数据可视化Github开源项目热门

Mage 提供了一种现代化的数据管道工具，旨在替代 Airflow，简化开发体验，支持 Python、SQL 和 R，实现数据的实时和批量处理。Mage 让您的数据团队可以在不牺牲监控和可观测性的情况下，轻松构建、预览和启动数据管道，甚至在小团队中也能高效管理数千个管道。

graphrag - 提升文本数据结构化处理能力的先进工具

GraphRAGLLMs数据管道知识图谱隐私数据Github开源项目AI生图热门

GraphRAG是一个革新的数据管道和转换套件，旨在利用大型语言模型(LLMs)的力量从非结构化文本中提取有意义的结构化数据。该项目通过加快索引过程并优化提示调整，提供在Azure上的端到端用户体验，有效增强LLMs处理私有数据的能力。此外，GraphRAG的研究和开发还专注于推动负责任的AI使用，确保用户能够最大限度地发挥系统的潜力并减少限制的影响。

instill-core - 一款用于数据、模型和管道编排的全栈 AI 基础设施工具

Instill CoreAI基础设施数据管道模型编排Instill CloudGithub开源项目

探索instill-core，该全栈AI基础架构工具旨在简化AI驱动应用的数据、模型及数据流水线编排。了解更多详情，请参阅官方文档。

webdataset - 大规模深度学习数据集的管理工具

WebDatasettar文件深度学习数据管道PyTorchGithub开源项目

WebDataset是一种高性能的数据管理工具，专为大规模深度学习任务设计。它支持从本地存储和云对象存储读取数据，兼容PyTorch、TensorFlow和JAX。WebDataset能高效处理和读取多种格式的数据集，如图像、音频和视频，极大地提升I/O性能并简化数据预处理。其优势包括低延迟、无需本地存储及并行数据访问，适用于不同规模的深度学习任务。

bento - 灵活高效的流处理工具支持多源多目标数据连接

Bento流处理器数据管道配置文件插件Github开源项目

Bento是一个高性能的流处理工具，可连接多种数据源和目标。它支持多种中介模式，能对数据进行处理和转换。Bento提供强大的映射语言，易于部署和监控。它可作为二进制文件、Docker镜像或无服务器函数使用，适配多种云服务和数据系统。Bento保证至少一次的数据传输，并提供健康检查、指标监控和分布式追踪功能。

dlt - 简化数据加载流程的Python库

dlt数据加载Python库开源数据管道Github开源项目

dlt是一个开源Python库，旨在简化数据加载过程。它具备自动模式生成、数据规范化和增量加载功能，可集成到多种环境中。支持从快速数据探索到复杂生产环境的应用，并提供多种验证源和目标。dlt的灵活性和可扩展性使其能够有效处理不断增长的数据需求，适合各类数据处理任务。

alloy - 开源OpenTelemetry收集器分发版Grafana Alloy

Grafana AlloyOpenTelemetry可观测性数据管道开源Github开源项目

Grafana Alloy是开源的OpenTelemetry收集器分发版，支持指标、日志、跟踪和配置文件。它具有可编程管道、多种遥测生态系统支持、Kubernetes原生集成、可共享管道和集群功能。Alloy提供集中式配置管理和内置UI，便于可观测性管道的调试和可视化。

klio - 基于Apache Beam的音频处理数据管道生态系统

Klio音频处理数据管道Apache BeamPythonGithub开源项目

Klio是基于Apache Beam构建的数据管道生态系统，专门用于处理音频和二进制文件。该系统支持批处理和流式处理，主要应用于大规模音频智能系统。Klio源自Spotify，用于开发和部署新一代音频算法。它为工程师和研究人员提供了一个简化音频处理任务的平台。

lineapy - 两行代码将混乱笔记本转化为数据管道的开源工具

LineaPy数据管道笔记本清理工作流自动化代码追踪Github开源项目

LineaPy是一个开源Python工具，用于捕获、分析和转换数据科学工作流程。通过跟踪代码执行序列，LineaPy能够理解代码及其上下文，提供一套工具来清理混乱的笔记本、追溯以往工作和构建数据管道。只需两行代码，就可将复杂的工作流程转化为整洁的数据管道，帮助数据科学家更高效地将工作投入生产。

indexify - 构建快速数据管道实时处理非结构化数据的开源引擎

Indexify数据管道非结构化数据提取器向量数据库Github开源项目

Indexify是一个开源引擎，用于构建处理非结构化数据的快速数据管道。它支持视频、音频、图像和文档处理，使用可重用提取器进行数据嵌入、转换和特征提取。系统能自动更新向量数据库和结构化数据库，支持增量提取，并提供提取器SDK。Indexify预置多种提取器，兼容多种LLM框架和存储系统，可本地运行原型。这些特性使其成为实时RAG应用和智能体的高效数据处理解决方案。

Tablesmith - 高效隐私的电子表格自动化解决方案

AI工具Tablesmith电子表格自动化隐私保护跨平台数据管道

Tablesmith是一款跨平台电子表格自动化工具，专注于数据处理和工作流自动化。它支持Web、iOS、macOS和Windows平台，兼容CSV和XLSX格式。通过直观的管道构建器，用户可以利用过滤、排序、分组等六种功能创建复杂的数据处理流程。Tablesmith注重隐私保护，仅存储用户的管道设置。这款工具设计简洁，易于上手，适用于各种电子表格自动化需求。

Neum AI - 开源框架助力构建高效RAG数据管道

AI工具RAG数据管道嵌入向量数据库Neum AI

Neum AI框架专注于简化RAG和语义搜索的数据基础设施构建。它整合了多种连接器，便于快速创建数据管道，高效处理各类数据。框架兼顾本地开发与云端部署，满足不同规模需求。其核心功能包括实时数据同步、全面可观测性和智能检索，有效提升数据管理效率。Neum AI为构建可靠、高性能的RAG系统提供了全面解决方案。

awesome-apache-airflow - Apache Airflow资源大全工作流管理平台指南

Apache Airflow工作流管理数据管道调度系统开源软件Github开源项目

本项目汇集了Apache Airflow的综合资源，包括部署方案、教程、最佳实践和工具库等。内容涵盖重要链接、视频教程和商业服务，为Airflow用户提供全面指南。项目持续更新，致力于成为Airflow社区的权威参考。

pg_replicate - 基于Rust的PostgreSQL数据复制框架

pg_replicatePostgreSQL数据复制Rust数据管道Github开源项目

pg_replicate是一个基于Rust的PostgreSQL数据复制框架。它利用PostgreSQL的逻辑流复制协议，提供数据管道抽象，简化复制过程。支持BigQuery、DuckDB等多种数据接收器，适用于将PostgreSQL数据持续复制到其他系统的场景。该框架抽象了底层细节，为开发者提供高效的数据复制工具。

murex - 智能化shell工具革新命令行操作

Murex命令行工具shell数据管道用户体验Github开源项目

作为新一代shell工具，Murex引入了智能管道类型系统，显著提升了数据处理能力。它支持JSON等复杂格式，集成了内联拼写检查和上下文敏感提示，大幅提高了命令行操作的效率和准确性。Murex还强化了错误处理和调试功能，同时保证向后兼容性，为命令行用户提供了一个更智能、更高效的工作环境。

ploomber - 快速构建和部署数据流水线的开源框架

Ploomber数据管道部署Jupyter机器学习Github开源项目

Ploomber是一个开源的数据流水线构建框架，支持多种主流编辑器进行交互式开发。它可以无缝部署到Kubernetes、Airflow等平台，提供YAML和Python API，具备自动缓存和笔记本重构功能。Ploomber适用于各级数据科学工作者，能显著提升数据处理效率。

dataplane - 高效灵活的开源数据管道构建平台

Dataplane数据管道工作流程GolangDockerGithub开源项目

Dataplane是一款开源的高性能数据管道构建平台。该项目采用Golang开发，具有拖拽式界面、Python编辑器、权限管理等功能。它支持多时区调度、分布式计算和资源监控，适合不同规模的团队使用。Dataplane注重性能、可扩展性和安全性，能有效简化数据处理和自动化工作流程。

dud - 高效数据版本管理与流程自动化工具

Dud数据版本控制数据管道命令行工具开源项目Github

Dud是一款轻量级数据版本管理工具，支持大文件处理和数据流程自动化。它采用YAML文件存储数据操作步骤，能够灵活构建数据处理流程。相比同类工具，Dud性能更优，操作更简单，专注于数据管理核心功能。它采用显式提交机制，默认使用符号链接，并通过Rclone实现高效的远程缓存管理。Dud不会隐式修改数据，为用户提供更可控的数据处理体验。

prefect - Python工作流编排框架助力数据管道构建

Prefect工作流编排数据管道Python自动化Github开源项目

Prefect是一款专为Python设计的工作流编排框架，主要用于构建数据管道。它利用装饰器为代码添加自动重试、分布式执行、调度和缓存等功能，使用户能够创建灵活的动态工作流。这些工作流具有应对环境变化和从意外情况恢复的能力。Prefect提供自托管服务器和云端管理仪表板，便于跟踪和监控工作流活动。该框架支持Python 3.9及以上版本，易于安装和使用，适合将普通脚本升级为交互式工作流应用。

pachyderm - 自动化数据处理与版本控制平台

Pachyderm数据管道数据版本控制数据血统KubernetesGithub开源项目

Pachyderm是一个开源的数据工程平台，提供自动化的数据处理流水线和版本控制功能。该平台支持复杂的数据转换，并具备数据血缘跟踪能力。基于Kubernetes构建，Pachyderm实现了自动扩展和并行处理，可部署在主流云平台和本地环境。它为数据工程团队提供了一个高效的CI/CD引擎，适用于各类数据处理场景。

相关文章

Article Cover

Mage-AI: 打造魔法般的数据管道

Article Cover

Mage AI: 开源数据管道工具的魔法力量

Article Cover

Instill Core: 全栈AI基础设施工具助力构建AI应用

Article Cover

WebDataset:高性能的大规模深度学习数据处理库

Article Cover

Indexify: 革新LLM应用的实时数据处理框架

Article Cover

Indexify：为结构化和非结构化数据打造的实时提取和索引引擎

Article Cover

Klio: Spotify的智能音频数据处理利器

Article Cover

LineaPy: 从数据科学原型到生产级流水线的快速转换工具

Article Cover

Apache Airflow: 强大的工作流调度与管理工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号