LLM101n: 让我们构建一个讲故事的AI
!!! 注意:该课程尚未开设。目前正由Eureka Labs开发中。在准备就绪之前,我将此存档 !!!
我无法创造的,我就无法理解。-理查德·费曼
在本课程中,我们将构建一个讲故事的人工智能大型语言模型(LLM)。你将能够与AI一起创作、完善和插图小故事。我们将从基础开始,用Python、C和CUDA从零开始构建一切,直到开发出类似ChatGPT的功能性网页应用,且只需最少的计算机科学先修知识。到课程结束时,你应该对AI、LLM以及更广泛的深度学习有相对深入的理解。
课程大纲
- 第01章 二元语言模型 (语言建模)
- 第02章 微分梯度 (机器学习,反向传播)
- 第03章 N元模型 (多层感知器,矩阵乘法,gelu激活函数)
- 第04章 注意力机制 (注意力,softmax,位置编码器)
- 第05章 Transformer (transformer,残差连接,层归一化,GPT-2)
- 第06章 分词 (最小字节对编码,字节对编码)
- 第07章 优化 (初始化,优化,AdamW)
- 第08章 速度提升 I:设备 (设备,CPU,GPU,...)
- 第09章 速度提升 II:精度 (混合精度训练,fp16,bf16,fp8,...)
- 第10章 速度提升 III:分布式 (分布式优化,DDP,ZeRO)
- 第11章 数据集 (数据集,数据加载,合成数据生成)
- 第12章 推理 I:KV缓存 (KV缓存)
- 第13章 推理 II:量化 (量化)
- 第14章 微调 I:SFT (有监督微调SFT,PEFT,LoRA,对话)
- 第15章 微调 II:强化学习 (强化学习,RLHF,PPO,DPO)
- 第16章 部署 (API,网页应用)
- 第17章 多模态 (VQVAE,扩散transformer)
附录
需要整合到上述进程中的更多主题:
- 编程语言:汇编,C,Python
- 数据类型:整数,浮点数,字符串(ASCII,Unicode,UTF-8)
- 张量:形状,视图,步长,连续性,...
- 深度学习框架:PyTorch,JAX
- 神经网络架构:GPT(1,2,3,4),Llama(RoPE,RMSNorm,GQA),MoE,...
- 多模态:图像,音频,视频,VQVAE,VQGAN,扩散