极棒的机器学习/LLM系统
💫💫💫 更新:我们正在为这个仓库准备一个新网站 Let's Go AI!💫💫💫
通往AI系统的路径 [必读白皮书]
一个精挑细选的机器学习系统研究列表。如果有代码链接也会提供。现在我们有一个团队来维护这个项目。非常欢迎您使用我们的模板提交请求。
AI系统 (按类别排序)
LLM基础设施
ML / DL基础设施
特定领域的基础设施
ML/LLM系统会议
会议
- OSDI
- SOSP
- SIGCOMM
- NSDI
- MLSys
- ATC
- Eurosys
- Middleware
- SoCC
- TinyML
通用资源
调查
- 高可用智能云和机器学习系统 [幻灯片]
- 一个精挑细选的极棒系统设计文章、视频和分布式计算资源列表,亦称大数据。 [GitHub]
- awesome-production-machine-learning: 一个精挑细选的开放源码库列表,用于部署、监控、版本管理和扩展机器学习 [GitHub]
- 生产环境中机器学习加速器的机会和挑战 [论文]
- Ananthanarayanan, Rajagopal, 等。"
- 2019 {USENIX} 运营机器学习会议 (OpML 19)。2019年。
- 如何(以及如何不)撰写一篇好的系统论文 [建议]
- 在Facebook应用机器学习:数据中心基础设施视角 [论文]
- Hazelwood, Kim, 等。(HPCA 2018)
- 可用机器学习的基础设施:斯坦福DAWN项目
- Bailis, Peter, Kunle Olukotun, Christopher Ré, 和 Matei Zaharia。(2017年初稿)
- 机器学习系统中的隐藏技术债务 [论文]
- Sculley, David, 等。(NIPS 2015)
- 系统设计中的端到端论点 [论文]
- Saltzer, Jerome H., David P. Reed, 和 David D. Clark。
- 大规模机器学习系统的设计 [论文]
- Facebook数据中心中的深度学习推理:特征、性能优化和硬件影响 [论文]
- Park, Jongsoo, Maxim Naumov, Protonu Basu 等。arXiv 2018
- 摘要:本文介绍了DL模型的特征,然后展示了DL硬件的新设计原则。
- 伯克利对AI系统挑战的看法 [论文]
书籍
- 计算机体系结构:定量方法 [必读]
- 分布式机器学习模式 [网站]
- 流处理系统 [书籍]
- Kubernetes实战 (开始阅读) [书籍]
- 机器学习系统:设计可扩展的 [网站]
- 机器学习中的信任 [网站]
- 自动化机器学习实战 [网站]
视频
- ScalaDML2020:向机器学习社区的最佳头脑学习。 [视频]
- Jeff Dean: "快速响应时间在大型在线服务中的实现" 主题演讲 - Velocity 2014 [YouTube]
- 从研究到生产使用PyTorch [视频]
- 微服务、Docker和Kubernetes介绍 [YouTube]
- ICML主题演讲:帮助20万非ML专家使用ML的经验教训 [视频]
- 自适应和多任务学习系统 [网站]
- 系统思维。 TED演讲。 [YouTube]
- 灵活的系统是机器学习的下一个前沿。Jeff Dean [YouTube]
- 是时候用Rust重写操作系统了吗?[YouTube]
- InfoQ: AI, ML和数据工程 [YouTube]
- 开始观看。
- Netflix: 以人为本的机器学习基础设施 [InfoQ]
- SysML 2019: [YouTube]
- ScaledML 2019: David Patterson, Ion Stoica, Dawn Song 等 [YouTube]
- ScaledML 2018: Jeff Dean, Ion Stoica, Yangqing Jia 等 [YouTube] [幻灯片]
- 计算机架构的新黄金时代:历史、挑战和机会。David Patterson [YouTube]
- 如何拥有糟糕的职业生涯。David Patterson (我是他的大粉丝) [YouTube]
- SysML 18: 视角与挑战。Michael Jordan [YouTube]
- SysML 18: 系统与机器学习的共生关系。Jeff Dean [YouTube]
- AutoML基础: 自动化机器学习实战。Qingquan Song, Haifeng Jin, Xia Hu [YouTube]
课程
- CS692 研讨会:机器学习系统,机器学习系统 [GitHub]
- 网络主题:机器学习用于网络和系统,2019年秋 [课程网站]
- CS6465:新兴云技术和系统挑战 [康奈尔大学]
- CS294:人工智能与系统。[加州大学伯克利分校春季学期] (强烈推荐)[机器学习系统(2019年秋季)]
- CSE 599W:机器学习系统。[陈天琦] [华盛顿大学]
- EECS 598:人工智能系统(W'21)。[Mosharaf Chowdhury] [人工智能系统 (W'21)]
- 如何在2k行代码内构建您自己的深度学习系统 [GitHub]
- CSE 291F:高级数据分析和机器学习系统。[UCSD]
- CSci 8980:计算机系统中的机器学习 [明尼苏达大学双城]
- Mu Li (MxNet, Parameter Server): 深度学习介绍 [我认为是最好的深度学习课程] [书籍]
- 10-605:大型数据集的机器学习。[CMU]
- CS 329S:机器学习系统设计。[斯坦福大学]
博客
- 并行使用多个CPU/GPU加速边缘设备上的深度学习推理 [亚马逊博客]
- 在几分钟内构建稳健的生产级深度学习视觉模型 [博客]
- 使用Keras,FastAPI,Redis和Docker部署机器学习模型 [博客]
- 如何部署机器学习模型 - 使用FastAPI + Uvicorn创建生产级API [博客] [GitHub]
- 将机器学习模型部署为REST API [博客]
- 机器学习的持续交付 [博客]
- Kubernetes速查表 [GitHub]
- Kubernetes简介 [博客]
- 使用Web界面训练和部署机器学习模型 - Docker, PyTorch & Flask [GitHub]
- 学习Kubernetes,中国道教方式 [GitHub]
- 数据管道,Luigi, Airflow: 你需要知道的一切 [博客]
- 深度学习工具集概述 [博客]
- CSE 599W:机器学习系统总结 [中文博客]
- 在Kubernetes中使用Polyaxon, Argo和Seldon进行模型训练,打包和部署 [博客]
- 把机器学习(ML)模型投入生产的不同方法概述 [博客]
- 成为数据科学家并不意味着你是一名软件工程师 [第一部分] 构建机器学习流水线 [第二部分]
- 在PyTorch中进行模型服务 [博客]
- Netflix中的机器学习 [Medium]
- SciPy会议材料(幻灯片,仓库) [GitHub]
- 继Spark之后,UC Berkeley推出新一代AI计算引擎——Ray [博客]
- 了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构? [知乎]
- 在3小时内学习Kubernetes:编排容器的详细指南 [博客] [GitHub]
- 数据工程师路线图:从硅谷多家公司学习。Netflix, Facebook, Google, Startups [GitHub]
- 使用TensorFlow Serving + Docker + Tornado进行机器学习模型生产级快速部署 [博客]
- 将机器学习模型部署为REST API [博客]
- Colossal-AI:大模型时代的统一深度学习系统 [博客] [GitHub]
- 数据工程师路线图 [Scaler Blogs]