#数据管道

rags - 使用自然语言从数据源创建RAG管道
RAGsStreamlitOpenAI数据管道自然语言处理Github开源项目
RAGs是一个基于Streamlit的应用程序,使用自然语言从数据源创建RAG管道。用户可以描述任务和参数,查看和修改生成的参数,并通过RAG代理查询数据。项目支持多种LLM和嵌入模型,默认使用OpenAI构建代理。该应用程序提供了一个标准的聊天界面,能够通过Top-K向量搜索或总结功能满足查询需求。了解更多关于安装和配置的信息,请访问GitHub页面或加入Discord社区。
mage-ai - 现代化的数据管道工具,替代传统工作流程控制系统
Mage数据管道Airflow替代数据集成数据可视化Github开源项目热门
Mage 提供了一种现代化的数据管道工具,旨在替代 Airflow,简化开发体验,支持 Python、SQL 和 R,实现数据的实时和批量处理。Mage 让您的数据团队可以在不牺牲监控和可观测性的情况下,轻松构建、预览和启动数据管道,甚至在小团队中也能高效管理数千个管道。
graphrag - 提升文本数据结构化处理能力的先进工具
GraphRAGLLMs数据管道知识图谱隐私数据Github开源项目AI生图热门
GraphRAG是一个革新的数据管道和转换套件,旨在利用大型语言模型(LLMs)的力量从非结构化文本中提取有意义的结构化数据。该项目通过加快索引过程并优化提示调整,提供在Azure上的端到端用户体验,有效增强LLMs处理私有数据的能力。此外,GraphRAG的研究和开发还专注于推动负责任的AI使用,确保用户能够最大限度地发挥系统的潜力并减少限制的影响。
instill-core - 一款用于数据、模型和管道编排的全栈 AI 基础设施工具
Instill CoreAI基础设施数据管道模型编排Instill CloudGithub开源项目
探索instill-core,该全栈AI基础架构工具旨在简化AI驱动应用的数据、模型及数据流水线编排。了解更多详情,请参阅官方文档。
webdataset - 大规模深度学习数据集的管理工具
WebDatasettar文件深度学习数据管道PyTorchGithub开源项目
WebDataset是一种高性能的数据管理工具,专为大规模深度学习任务设计。它支持从本地存储和云对象存储读取数据,兼容PyTorch、TensorFlow和JAX。WebDataset能高效处理和读取多种格式的数据集,如图像、音频和视频,极大地提升I/O性能并简化数据预处理。其优势包括低延迟、无需本地存储及并行数据访问,适用于不同规模的深度学习任务。
bento - 灵活高效的流处理工具 支持多源多目标数据连接
Bento流处理器数据管道配置文件插件Github开源项目
Bento是一个高性能的流处理工具,可连接多种数据源和目标。它支持多种中介模式,能对数据进行处理和转换。Bento提供强大的映射语言,易于部署和监控。它可作为二进制文件、Docker镜像或无服务器函数使用,适配多种云服务和数据系统。Bento保证至少一次的数据传输,并提供健康检查、指标监控和分布式追踪功能。
dlt - 简化数据加载流程的Python库
dlt数据加载Python库开源数据管道Github开源项目
dlt是一个开源Python库,旨在简化数据加载过程。它具备自动模式生成、数据规范化和增量加载功能,可集成到多种环境中。支持从快速数据探索到复杂生产环境的应用,并提供多种验证源和目标。dlt的灵活性和可扩展性使其能够有效处理不断增长的数据需求,适合各类数据处理任务。
alloy - 开源OpenTelemetry收集器分发版Grafana Alloy
Grafana AlloyOpenTelemetry可观测性数据管道开源Github开源项目
Grafana Alloy是开源的OpenTelemetry收集器分发版,支持指标、日志、跟踪和配置文件。它具有可编程管道、多种遥测生态系统支持、Kubernetes原生集成、可共享管道和集群功能。Alloy提供集中式配置管理和内置UI,便于可观测性管道的调试和可视化。
klio - 基于Apache Beam的音频处理数据管道生态系统
Klio音频处理数据管道Apache BeamPythonGithub开源项目
Klio是基于Apache Beam构建的数据管道生态系统,专门用于处理音频和二进制文件。该系统支持批处理和流式处理,主要应用于大规模音频智能系统。Klio源自Spotify,用于开发和部署新一代音频算法。它为工程师和研究人员提供了一个简化音频处理任务的平台。
lineapy - 两行代码将混乱笔记本转化为数据管道的开源工具
LineaPy数据管道笔记本清理工作流自动化代码追踪Github开源项目
LineaPy是一个开源Python工具,用于捕获、分析和转换数据科学工作流程。通过跟踪代码执行序列,LineaPy能够理解代码及其上下文,提供一套工具来清理混乱的笔记本、追溯以往工作和构建数据管道。只需两行代码,就可将复杂的工作流程转化为整洁的数据管道,帮助数据科学家更高效地将工作投入生产。
indexify - 构建快速数据管道 实时处理非结构化数据的开源引擎
Indexify数据管道非结构化数据提取器向量数据库Github开源项目
Indexify是一个开源引擎,用于构建处理非结构化数据的快速数据管道。它支持视频、音频、图像和文档处理,使用可重用提取器进行数据嵌入、转换和特征提取。系统能自动更新向量数据库和结构化数据库,支持增量提取,并提供提取器SDK。Indexify预置多种提取器,兼容多种LLM框架和存储系统,可本地运行原型。这些特性使其成为实时RAG应用和智能体的高效数据处理解决方案。
Tablesmith - 高效隐私的电子表格自动化解决方案
AI工具Tablesmith电子表格自动化隐私保护跨平台数据管道
Tablesmith是一款跨平台电子表格自动化工具,专注于数据处理和工作流自动化。它支持Web、iOS、macOS和Windows平台,兼容CSV和XLSX格式。通过直观的管道构建器,用户可以利用过滤、排序、分组等六种功能创建复杂的数据处理流程。Tablesmith注重隐私保护,仅存储用户的管道设置。这款工具设计简洁,易于上手,适用于各种电子表格自动化需求。
Neum AI - 开源框架助力构建高效RAG数据管道
AI工具RAG数据管道嵌入向量数据库Neum AI
Neum AI框架专注于简化RAG和语义搜索的数据基础设施构建。它整合了多种连接器,便于快速创建数据管道,高效处理各类数据。框架兼顾本地开发与云端部署,满足不同规模需求。其核心功能包括实时数据同步、全面可观测性和智能检索,有效提升数据管理效率。Neum AI为构建可靠、高性能的RAG系统提供了全面解决方案。
awesome-apache-airflow - Apache Airflow资源大全 工作流管理平台指南
Apache Airflow工作流管理数据管道调度系统开源软件Github开源项目
本项目汇集了Apache Airflow的综合资源,包括部署方案、教程、最佳实践和工具库等。内容涵盖重要链接、视频教程和商业服务,为Airflow用户提供全面指南。项目持续更新,致力于成为Airflow社区的权威参考。
pg_replicate - 基于Rust的PostgreSQL数据复制框架
pg_replicatePostgreSQL数据复制Rust数据管道Github开源项目
pg_replicate是一个基于Rust的PostgreSQL数据复制框架。它利用PostgreSQL的逻辑流复制协议,提供数据管道抽象,简化复制过程。支持BigQuery、DuckDB等多种数据接收器,适用于将PostgreSQL数据持续复制到其他系统的场景。该框架抽象了底层细节,为开发者提供高效的数据复制工具。
murex - 智能化shell工具 革新命令行操作
Murex命令行工具shell数据管道用户体验Github开源项目
作为新一代shell工具,Murex引入了智能管道类型系统,显著提升了数据处理能力。它支持JSON等复杂格式,集成了内联拼写检查和上下文敏感提示,大幅提高了命令行操作的效率和准确性。Murex还强化了错误处理和调试功能,同时保证向后兼容性,为命令行用户提供了一个更智能、更高效的工作环境。
ploomber - 快速构建和部署数据流水线的开源框架
Ploomber数据管道部署Jupyter机器学习Github开源项目
Ploomber是一个开源的数据流水线构建框架,支持多种主流编辑器进行交互式开发。它可以无缝部署到Kubernetes、Airflow等平台,提供YAML和Python API,具备自动缓存和笔记本重构功能。Ploomber适用于各级数据科学工作者,能显著提升数据处理效率。
dataplane - 高效灵活的开源数据管道构建平台
Dataplane数据管道工作流程GolangDockerGithub开源项目
Dataplane是一款开源的高性能数据管道构建平台。该项目采用Golang开发,具有拖拽式界面、Python编辑器、权限管理等功能。它支持多时区调度、分布式计算和资源监控,适合不同规模的团队使用。Dataplane注重性能、可扩展性和安全性,能有效简化数据处理和自动化工作流程。
dud - 高效数据版本管理与流程自动化工具
Dud数据版本控制数据管道命令行工具开源项目Github
Dud是一款轻量级数据版本管理工具,支持大文件处理和数据流程自动化。它采用YAML文件存储数据操作步骤,能够灵活构建数据处理流程。相比同类工具,Dud性能更优,操作更简单,专注于数据管理核心功能。它采用显式提交机制,默认使用符号链接,并通过Rclone实现高效的远程缓存管理。Dud不会隐式修改数据,为用户提供更可控的数据处理体验。
prefect - Python工作流编排框架助力数据管道构建
Prefect工作流编排数据管道Python自动化Github开源项目
Prefect是一款专为Python设计的工作流编排框架,主要用于构建数据管道。它利用装饰器为代码添加自动重试、分布式执行、调度和缓存等功能,使用户能够创建灵活的动态工作流。这些工作流具有应对环境变化和从意外情况恢复的能力。Prefect提供自托管服务器和云端管理仪表板,便于跟踪和监控工作流活动。该框架支持Python 3.9及以上版本,易于安装和使用,适合将普通脚本升级为交互式工作流应用。
pachyderm - 自动化数据处理与版本控制平台
Pachyderm数据管道数据版本控制数据血统KubernetesGithub开源项目
Pachyderm是一个开源的数据工程平台,提供自动化的数据处理流水线和版本控制功能。该平台支持复杂的数据转换,并具备数据血缘跟踪能力。基于Kubernetes构建,Pachyderm实现了自动扩展和并行处理,可部署在主流云平台和本地环境。它为数据工程团队提供了一个高效的CI/CD引擎,适用于各类数据处理场景。