分布式机器学习模式
本仓库包含了Manning出版社出版的《分布式机器学习模式》一书的参考资料和代码,作者为袁杨。
:fire: 电子书和纸质书现已上市!韩语、简体中文和俄语版本即将推出!
Manning,亚马逊,Barnes & Noble,Powell's,Bookshop
在《分布式机器学习模式》中,您将学习如何:
- 应用模式构建可扩展和可靠的机器学习系统。
- 构建包含数据摄取、分布式训练、模型服务等的机器学习流程。
- 使用Kubernetes、TensorFlow、Kubeflow和Argo Workflows自动化机器学习任务。
- 在不同模式和方法之间做出权衡决策。
- 大规模管理和监控机器学习工作负载。
本书教您如何将机器学习模型从个人笔记本电脑扩展到大型分布式集群。您将探索成功分布式机器学习系统背后的关键概念和模式,并直接从一位主要维护者和贡献者那里学习TensorFlow、Kubernetes、Kubeflow和Argo Workflows等技术。真实场景、实践项目和清晰实用的建议让您轻松启动、管理和监控云原生分布式机器学习流程。
关于主题
将模型从个人设备扩展到大型分布式集群是现代机器学习从业者面临的最大挑战之一。分布式机器学习系统允许开发人员处理跨多个集群的超大数据集,利用自动化工具,并受益于硬件加速。在本书中,袁杨分享了多年来构建和管理尖端分布式机器学习基础设施所获得的模式、技术和经验。
关于本书
《分布式机器学习模式》充满了在云中运行Kubernetes集群上的机器学习系统的实用模式。每个模式都旨在帮助解决构建分布式机器学习系统时面临的常见挑战,包括支持分布式模型训练、处理意外故障和动态模型服务流量。真实场景为每种模式的应用提供了清晰的示例,同时也介绍了每种方法的潜在权衡。掌握这些前沿技术后,您将把它们全部付诸实践,最终构建一个全面的分布式机器学习系统。
读者对象
适合熟悉机器学习算法基础和生产环境中运行机器学习的数据分析师、数据科学家和软件工程师。读者应该熟悉Bash、Python和Docker的基础知识。
关于作者
袁杨是红帽的首席软件工程师,负责OpenShift AI。此前,他在多家公司领导过AI基础设施和平台团队。他在开源项目中担任领导职务,包括Argo、Kubeflow和Kubernetes。他还是许多流行开源项目的维护者和作者。此外,袁杨撰写了三本技术书籍,发表了众多影响深远的论文。他是各种组织的常驻会议演讲者、技术顾问、领导者和导师。
支持性引述
"对于那些想要了解如何更有效地大规模应用机器学习的人来说,这是一本精彩的书,解释清晰,从基本原理出发!"
-- Laurence Moroney,谷歌AI开发者关系主管
"这本书是一本非常及时且全面的指南,介绍了如何在分布式环境中开发、运行和管理机器学习系统。它涵盖了数据分区、摄取、模型训练、服务和工作流管理等基本主题。这本书真正与众不同的是,它从模式的角度讨论了这些主题,并配以真实世界的例子和广泛采用的系统,如Kubernetes、Kubeflow和Argo。我强烈推荐它!"
-- Yuan Chen,苹果公司首席软件工程师
"这本书提供了所有MLOps工程任务所需的高层次模式理解和实用代码示例。这是该领域所有人必读的书。"
-- Brian Ray,Eviden全球数据科学和人工智能主管
"这本书以一种对初学者友好、同时又能激发和启发有经验从业者的方式,将分布式系统、机器学习和站点可靠性工程的概念编织在一起。一读完,我就迫不及待地想要开始构建了。"
-- James Lamb,SpotHero的数据工程师
"无论您在数据生态系统中担任什么角色(科学家、分析师或工程师),如果您想将知识和技能提升到下一个层次,那么这本书就是为您准备的。这本书是一本关于设计弹性和可扩展的ML系统(用于训练和服务模型)的概念和最新技术的精彩指南。无论您使用什么平台,这本书都会教您在尝试扩展系统时应该熟悉的模式。"
-- Ryan Russon,Capital One模型训练高级经理
"AI是新电力,分布式系统是新电网。无论您是研究科学家、工程师还是产品开发人员,您都会在这本书中找到最佳实践和方法来扩展您最伟大的努力。"
-- Linxi "Jim" Fan,NVIDIA高级AI研究科学家,斯坦福博士
"这本书讨论了各种架构方法,以解决常见的数据科学问题,如扩展机器学习流程和构建健壮的工作流和流水线。对于想要提高在这一领域知识的数据科学家和ML工程师来说,这是MLOps世界的一个极好的入门。"
-- Rami Krispin,高级数据科学和工程经理