AI系统学院
💫💫💫 机器学习、大语言模型(LLM)、生成式AI(GenAI)系统
更新:
- 视频教程 [YouTube] [哔哩哔哩] [小红书]
- 我们正在为这个仓库准备一个新网站 [Lets Go AI]!
AI系统之路 [必读白皮书]
这是一个精心策划的机器学习系统研究列表。如果有代码链接也会提供。现在我们有一个团队来维护这个项目。非常欢迎您使用我们的模板提交拉取请求。
AI系统(按类别排序)
机器学习/深度学习基础设施
大语言模型基础设施
领域特定基础设施
机器学习/大语言模型系统相关会议
会议
- OSDI
- SOSP
- SIGCOMM
- NSDI
- MLSys
- ATC
- Eurosys
- Middleware
- SoCC
- TinyML
通用资源
综述
- 面向高可用、智能化云计算和机器学习系统 [幻灯片]
- 精选的系统设计文章、视频和资源列表,适用于分布式计算,又称大数据。[GitHub]
- awesome-production-machine-learning:精选的开源库列表,用于部署、监控、版本控制和扩展机器学习 [GitHub]
- 生产环境中机器学习加速器的机遇与挑战 [论文]
- Ananthanarayanan, Rajagopal等人
- 2019 {USENIX} 运营机器学习会议(OpML 19)。2019年。
- 如何(以及如何不)写一篇好的系统论文 [建议]
- Facebook的应用机器学习:数据中心基础设施视角 [论文]
- Hazelwood, Kim等人 (HPCA 2018)
- 可用机器学习的基础设施:斯坦福DAWN项目
- Bailis, Peter, Kunle Olukotun, Christopher Ré和Matei Zaharia。(预印本 2017)
- 机器学习系统中隐藏的技术债务 [论文]
- Sculley, David等人 (NIPS 2015)
- 系统设计中的端到端论证 [论文]
- Saltzer, Jerome H., David P. Reed和David D. Clark。
- 大规模机器学习的系统设计 [论文]
- Facebook数据中心的深度学习推理:特征、性能优化和硬件影响 [论文]
- Park, Jongsoo, Maxim Naumov, Protonu Basu等人 arXiv 2018
- 摘要:本文介绍了深度学习模型的特征,然后展示了深度学习硬件的新设计原则。
- 伯克利对AI系统挑战的观点 [论文]
书籍
- 计算机体系结构:定量方法 [必读]
- 分布式机器学习模式 [网站]
- 流处理系统 [书籍]
- Kubernetes实战(开始阅读) [书籍]
- 机器学习系统:可扩展的设计 [网站]
- 机器学习中的信任 [网站]
- 自动化机器学习实战 [网站]
视频
- ScalaDML2020:向机器学习界的顶尖人才学习。[视频]
- Jeff Dean:《在大型在线服务中实现快速响应时间》主题演讲 - Velocity 2014 [YouTube]
- 从研究到生产:PyTorch 实践 [视频]
- 微服务、Docker 和 Kubernetes 入门 [YouTube]
- ICML 主题演讲:帮助 200,000 名非机器学习专家使用机器学习的经验教训 [视频]
- 自适应与多任务学习系统 [网站]
- 系统思维。TED 演讲。[YouTube]
- 灵活系统是机器学习的下一个前沿。Jeff Dean [YouTube]
- 是时候用 Rust 重写操作系统了吗?[YouTube]
- InfoQ:人工智能、机器学习和数据工程 [YouTube]
- 开始观看。
- Netflix:以人为本的机器学习基础设施 [InfoQ]
- SysML 2019:[YouTube]
- ScaledML 2019:David Patterson、Ion Stoica、Dawn Song 等 [YouTube]
- ScaledML 2018:Jeff Dean、Ion Stoica、Yangqing Jia 等 [YouTube] [幻灯片]
- 计算机体系结构的新黄金时代:历史、挑战和机遇。David Patterson [YouTube]
- 如何拥有一个糟糕的职业生涯。David Patterson(我是他的忠实粉丝)[YouTube]
- SysML 18:前景与挑战。Michael Jordan [YouTube]
- SysML 18:系统与机器学习的共生。Jeff Dean [YouTube]
- AutoML 基础:自动化机器学习实践。Qingquan Song、Haifeng Jin、Xia Hu [YouTube]
课程
- CS692 研讨会:机器学习系统,系统机器学习 [GitHub]
- 网络主题:网络和系统的机器学习,2019年秋季 [课程网站]
- CS6465:新兴云技术和系统挑战 [康奈尔大学]
- CS294:系统人工智能和人工智能系统 [加州大学伯克利分校春季] (强烈推荐) [机器学习系统(2019年秋季)]
- CSE 599W:机器学习系统 [陈天奇] [华盛顿大学]
- EECS 598:人工智能系统(2021年冬季) [Mosharaf Chowdhury] [人工智能系统(2021年冬季)]
- 如何用2000行代码构建自己的深度学习系统的教程代码 [GitHub]
- CSE 291F:高级数据分析和机器学习系统 [加州大学圣地亚哥分校]
- CSci 8980:计算机系统中的机器学习 [明尼苏达大学双城分校]
- 李沐(MxNet,参数服务器):深度学习导论 [我认为最好的深度学习课程] [书籍]
- 10-605:大数据集机器学习 [卡内基梅隆大学]
- CS 329S:机器学习系统设计 [斯坦福大学]
博客
- 在边缘设备上并行使用多个 CPU/GPU 加速深度学习推理 [亚马逊博客]
- 在几分钟内构建强大的生产就绪深度学习视觉模型 [博客]
- 使用 Keras、FastAPI、Redis 和 Docker 部署机器学习模型 [博客]
- 如何部署机器学习模型 -- 使用 FastAPI + Uvicorn 创建生产就绪的 API [博客] [GitHub]
- 将机器学习模型部署为 REST API [博客]
- 机器学习的持续交付 [博客]
- A4 尺寸的 Kubernetes 速查表 [GitHub]
- Kubernetes 温和入门 [博客]
- 训练和部署带有 Web 界面的机器学习模型 - Docker、PyTorch 和 Flask [GitHub]
- 以中国道家方式学习 Kubernetes [GitHub]
- 数据管道、Luigi、Airflow:你需要知道的一切 [博客]
- 深度学习工具集概述 [博客]
- CSE 599W:机器学习系统课程总结 [中文博客]
- 在 Kubernetes 中使用 Polyaxon、Argo 和 Seldon 进行模型训练、打包和部署 [博客]
- 将机器学习 (ML) 模型投入生产的不同方法概述 [博客]
- 作为数据科学家并不意味着你是软件工程师 [第一部分] 构建机器学习管道 [第二部分]
- PyTorch 中的模型服务 [博客]
- Netflix 的机器学习 [Medium]
- SciPy 会议资料(幻灯片、代码库)[GitHub]
- 继 Spark 之后,UC Berkeley 推出新一代 AI 计算引擎——Ray [博客]
- 了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构? [知乎]
- 3 小时内学习 Kubernetes:容器编排的详细指南 [博客] [GitHub]
- 数据工程师路线图:从硅谷多家公司学习。包括 Netflix、Facebook、Google 和初创公司 [GitHub]
- TensorFlow Serving + Docker + Tornado机器学习模型生产级快速部署 [博客]
- 将机器学习模型部署为REST API [博客]
- Colossal-AI:大模型时代的统一深度学习系统 [博客] [GitHub]
- 数据工程师学习路线图 [Scaler博客]