#数据流水线
flyte - 开源数据和机器学习流程编排工具
Github开源项目机器学习云服务编程语言Flyte数据流水线
Flyte是一个开源的数据与机器学习工作流编排器,支持在Kubernetes平台上扩展和重复使用。它使用户能够使用Python SDK开发并在多种环境下部署,简化了分布式计算和资源管理。
batchflow - 高效灵活的大规模数据处理和机器学习框架
Github开源项目神经网络机器学习数据处理数据流水线BatchFlow
BatchFlow是一个专为大规模数据处理和复杂机器学习流程设计的Python库。它提供灵活的批处理生成、确定性和随机管道、数据集合并等功能。支持多种深度学习模型,并具有丰富的层和辅助函数,方便自定义模型。其懒加载机制和高效批处理策略适用于处理超出内存容量的大型数据集,是数据科学和机器学习项目的理想工具。