强化学习课程资料
帕德博恩大学主办的强化学习课程的讲义、教程任务(含解答)以及在线视频。课程全部资料的源代码是开放的,诚挚邀请所有人使用它进行自学(学生)或设置您自己的课程(讲师)。
课程内容
- 强化学习简介
- 马尔可夫决策过程
- 动态规划
- 蒙特卡罗方法
- 时序差分学习
- 多步自举法
- 表格方法的规划与学习
- 监督学习的函数逼近
- 基于函数逼近的在线策略预测
- 基于函数逼近的价值控制
- 随机策略梯度方法
- 确定性策略梯度方法
- 其他当代强化学习算法(TRPO,PPO)
- 展望与研究洞察
练习内容
所有练习基于Python 3.9和根据requirements.txt安装的site-packages:
>>> pip install -r requirements.txt
- 科学计算Python基础
- 手动解决基本马尔可夫链、奖励和决策问题
- 啤酒学士和动态规划(最短啤酒问题)
- 使用蒙特卡罗学习驾驶赛道
- 使用时间差分学习实现更快速的驾驶
- 使用表格多步方法稳定倒立摆
- 通过整合学习和规划(Dyna框架)提升倒立摆性能
- 使用监督学习预测实际电力驱动系统的运行行为
- 使用函数逼近评估给定智能体在山地车问题中的表现
- [教程模板](https://github.com/upb-lea/reinforcement_learning_course_materials/blob/master/../master/exercises/templates/ex09
- [教程解答](https://github.com/upb-lea/reinforcement_learning_course_materials/blob/master/../master/exercises/solutions/ex09
- 使用半梯度Sarsa和最小二乘策略迭代逃出山地车谷
- 使用REINFORCE和演员-评论员方法登陆月球
- 用DDPG和PPO冲向月球
贡献
我们非常感谢对课程材料的任何反馈和意见,例如:
- 拼写错误或内容相关讨论(请提出问题)
- 添加新内容(请提供拉取请求)
如果您想更大程度地为这个仓库做出贡献,请随时直接与我们联系。
致谢
本讲义的灵感来源于:
- Richard S. Sutton, Andrew G. Barto 著,《强化学习:导论》第二版,麻省理工学院出版社,剑桥,马萨诸塞州,2018年
- David Silver,UCL 强化学习课程,2015年
教程部分使用了以下预打包的环境:
- Gymnasium(OpenAI's Gym 的维护分支)
引用
请参见顶部的"引用此仓库"