#数据版本控制
dvc - 提升机器学习项目可重复性和快速迭代的命令行工具
DVC数据版本控制机器学习版本管理VS Code扩展Github开源项目
DVC是一个命令行工具和VS Code扩展,用于管理机器学习项目的数据和模型版本控制。数据存储在云端,版本信息保存在Git仓库,通过轻量级管道实现快速迭代。DVC还支持本地实验跟踪和对比,允许在无服务器的情况下分享和重现实验结果。
deeplake - 面向 AI 的数据库,由针对深度学习应用程序优化的存储格式提供支持
Deep LakeAI数据库数据版本控制向量存储深度学习Github开源项目
Deep Lake是一个为深度学习设计的AI数据库,提供多云和本地数据存储方案,支持动态数据类型如嵌入向量、音频、视频等。它通过即时可视化、高级查询和向量搜索功能,以及与LangChain、Weights & Biases等工具的无缝整合,优化了企业级LLM产品的部署和数据管理。该平台适用于各种规模的数据,支持无服务器架构。
awesome-production-machine-learning - 机器学习生产部署、监控和安全保护的工具列表
机器学习生产环境部署模型解释隐私保护数据版本控制Github开源项目
这个开源库列表综合提供了机器学习生产部署、监控和安全保护的工具,涵盖隐私保护、模型与数据版本管理、训练协调等多个关键领域,是机器学习专业人员和爱好者优化项目实施和管理的理想选择。
dvclive - 简单易用的机器学习实验跟踪和指标记录工具
DVCLive机器学习指标记录实验比较数据版本控制Github开源项目
DVCLive是一个用于记录机器学习指标和元数据的Python库。它支持多种机器学习框架,无需额外服务,以纯文本文件存储实验结果,方便版本控制。DVCLive提供直观API,支持参数记录、指标跟踪和实验比较,有助于简化机器学习工作流程。
oxen-release - 机器学习数据集的高效版本控制系统
Oxen数据版本控制机器学习数据集数据管理开源项目Github
Oxen是专为机器学习数据集设计的高速版本控制系统,能高效处理大规模结构化和非结构化数据。它提供类似git的界面,优化了大文件和大数据集处理,支持命令行、Rust、Python和HTTP接口。Oxen具备快速索引、易用性、大文件处理、数据帧处理和变更跟踪等特点,为数据科学家和机器学习工程师提供高效的数据管理解决方案。
dud - 高效数据版本管理与流程自动化工具
Dud数据版本控制数据管道命令行工具开源项目Github
Dud是一款轻量级数据版本管理工具,支持大文件处理和数据流程自动化。它采用YAML文件存储数据操作步骤,能够灵活构建数据处理流程。相比同类工具,Dud性能更优,操作更简单,专注于数据管理核心功能。它采用显式提交机制,默认使用符号链接,并通过Rclone实现高效的远程缓存管理。Dud不会隐式修改数据,为用户提供更可控的数据处理体验。
pachyderm - 自动化数据处理与版本控制平台
Pachyderm数据管道数据版本控制数据血统KubernetesGithub开源项目
Pachyderm是一个开源的数据工程平台,提供自动化的数据处理流水线和版本控制功能。该平台支持复杂的数据转换,并具备数据血缘跟踪能力。基于Kubernetes构建,Pachyderm实现了自动扩展和并行处理,可部署在主流云平台和本地环境。它为数据工程团队提供了一个高效的CI/CD引擎,适用于各类数据处理场景。
相关文章
DVC: 开源数据版本控制系统助力数据科学和机器学习项目
3 个月前
DVC: 开源数据版本控制和机器学习实验管理工具
3 个月前
DVC: 开源数据版本控制与机器学习实验管理工具
3 个月前
Deep Lake: 为AI打造的新一代数据库
3 个月前
Awesome Production Machine Learning: 部署和管理机器学习模型的开源工具集
3 个月前
DVCLive: 基于Git和DVC的机器学习实验跟踪工具
3 个月前
Oxen: 革命性的机器学习数据版本控制系统
3 个月前
DUD: 一个用于数据版本控制和管理的创新工具
2 个月前
Pachyderm: 数据驱动的自动化数据转换与版本控制平台
2 个月前