项目介绍:Distributed Machine Learning Patterns
Distributed Machine Learning Patterns 是一本由元堂(Yuan Tang)撰写的书籍,书中详细介绍了分布式机器学习的模式,旨在帮助读者构建可扩展且可靠的机器学习系统。书中提供了丰富的实际示例和项目,使得理论能够与实践相结合,是适用于数据分析师、数据科学家和软件工程师的不可多得的资源。
学习内容
在本书中,读者将学习如何应用一系列模式,以构建和管理分布式的机器学习系统。这些模式包括数据摄取、分布式训练、模型服务等重要流程。此外,本书还介绍了如何利用 Kubernetes、TensorFlow、Kubeflow 和 Argo Workflows 等工具实现机器学习任务的自动化。读者将学会在不同模式和方法间进行权衡,并能够管理和监控规模化的机器学习负载。
主题背景
随着机器学习规模的不断扩大,如何将模型从个人设备扩展到大型集群成为了现代机器学习实践者面临的挑战之一。得益于分布式系统的优势,开发者能够处理极大规模的数据集,利用自动化工具和硬件加速。元堂在本书中分享了他多年在构建和管理尖端分布式机器学习基础设施中积累的模式、技术和经验。
针对读者
本书适合对基础机器学习算法有了解,并且具备在生产环境中运行机器学习系统经验的数据分析师、数据科学家和软件工程师。读者应具备基本的 Bash、Python 和 Docker 知识。
作者介绍
元堂是红帽公司(Red Hat)的首席软件工程师,负责 OpenShift AI 的相关工作。他曾在多家公司领导 AI 基础设施和平台团队,并在多个开源项目中担任领导角色,包括 Argo、Kubeflow 和 Kubernetes。他撰写了多本技术书籍,发表了多篇具有影响力的论文,是各类会议的常客,也是各组织的技术顾问、领导者和导师。
书中推荐语
-
谷歌 AI 开发者关系负责人 Laurence Moroney 称:“这本书以清晰的方式从基础原则解释了如何在大规模机器学习中更有效。”
-
苹果公司首席软件工程师 Yuan Chen 认为:“从模式视角讨论主题并结合实际案例使得本书在开发、运行和管理分布式环境下的机器学习系统中极为及时且全面。”
-
Eviden 全球数据科学和人工智能负责人 Brian Ray 强调:“这本书提供了 MLOps 工程任务中所需的实用代码示例,是领域中必读之作。”
-
SpotHero 的数据工程师 James Lamb 表示:“本书将分布式系统、机器学习和站点可靠性工程的概念结合成一个初学者易于理解并激励有经验的从业者的指南。”
-
Capital One 模型训练高级经理 Ryan Russon 指出:“无论你的数据生态系统角色是什么,这本书都是带你技能提升的理想向导。”
-
NVIDIA 的 Linxi “Jim” Fan 提到:“AI 是新时代的电力,而分布式系统则是新的电网。这本书提供了扩大你的事业的最佳实践和秘籍。”
-
数据科学和工程经理 Rami Krispin 评价:“这本书讨论了解决常见数据科学问题的各种架构方法,是对 MLOps 世界极好的介绍。”
通过阅读《Distributed Machine Learning Patterns》,读者可以获得将机器学习从小型环境扩展到大规模分布式集群的实用知识与技术,是深入了解和实践分布式机器学习的绝佳指南。