这个GitHub仓库包含ARENA 3.0项目的练习和Streamlit页面。
您可以在下面找到每个章节的摘要。要获取更详细的信息(包括访问练习的不同方式),请点击章节标题中的链接。
此外,请参阅这个Notion页面,了解可用的虚拟学习资料指南。
第0章:基础知识
本页的内容涵盖了课程的前五天。它可以被视为完成本课程更高级部分(如强化学习、转换器、机制可解释性、大规模训练和生成模型)所需的所有基础知识。
本章的一些亮点包括:
- 构建自己的1D和2D卷积函数
- 构建并加载权重到残差神经网络中,并在分类任务上进行微调
- 使用weights and biases优化超参数
- 实现自己的反向传播机制
- 构建自己的GANs和VAEs,并用它们生成图像
第1章:转换器可解释性
本页的内容涵盖了转换器(它们是什么,如何训练,如何用于生成输出)以及机制可解释性(它是什么,目前该领域最重要的一些结果,为什么它可能对对齐很重要)和其他与可解释性相关的主题(功能向量和模型引导)。
本章的一些亮点包括:
- 从头开始构建自己的转换器,并用它来采样自回归输出
- 使用Neel Nanda开发的TransformerLens库在2层模型中定位归纳头
- 在GPT-2 small中找到间接宾语识别的电路
- 解释在玩具任务上训练的模型,例如括号字符串的分类或模运算
- 复现Anthropic关于叠加的结果,并训练稀疏自编码器从叠加中恢复特征
- 使用引导向量在GPT2-XL中诱导行为变化
与第一章不同(其中所有材料都是必修的),本章除了前两个练习集外,所有部分都是可选的扩展。在前两个练习集中,你将构建和训练转换器,并获得对转换器模型机制可解释性的基本理解,包括归纳头和使用TransformerLens。之后,你可以选择其他六个练习集中的任何一个 - 没有先决条件!
如果你已经完成了必修材料,正在选择其他六个练习集,我们建议选择前三个中的一个(IOI、叠加和功能向量)。IOI适合实验主义者,叠加适合理论家/数学家,功能向量适合工程师,所以每个人都能找到适合自己的内容!
此外,每个可选的练习集在完成后都包括大量建议的额外材料/进一步探索,包括建议阅读和复现的论文。
第2章:强化学习
强化学习是机器学习的一个重要领域。它通过教导代理在环境中采取行动以最大化累积奖励来工作。
在本章中,你将学习RL的一些基础知识,并使用OpenAI的Gym环境来进行自己的实验。
本章的一些亮点包括:
- 构建自己的代理来玩多臂老虎机问题,实现Sutton & Barto中的方法
- 实现深度Q网络(DQN)和近端策略优化(PPO)来玩CartPole游戏
- 将RLHF应用于自回归转换器,如你在上一章中构建的那些
此外,后面的练习集包括大量建议的额外材料/进一步探索,包括建议阅读和复现的论文。