0.星标历史
1.依赖项
除非另有说明,本仓库使用以下Python依赖:
gymnasium==0.29.1
numpy==1.26.1
pytorch==2.1.0
python==3.11.5
2.如何使用我的代码
进入你想使用的算法文件夹,运行main.py从头开始训练:
python main.py
更多详细信息,请查看相应算法文件夹中的README.md文件。
3.代码的单独链接
- 1.Q学习
- 2.1双重双深度Q网络
- 2.2Atari游戏上的噪声双重双深度Q网络
- 2.3优先经验回放(PER) DQN/DDQN
- 2.4分类DQN (C51)
- 2.5噪声网络DQN
- 3.1离散动作空间的近端策略优化(PPO)
- 3.2连续动作空间的近端策略优化(PPO)
- 4.1深度确定性策略梯度(DDPG)
- 4.2双延迟深度确定性策略梯度(TD3)
- 5.1离散动作空间的软演员-评论家(SAC)
- 5.2连续动作空间的软演员-评论家(SAC)
- 6.演员-分享者-学习者(ASL)
4.推荐的深度强化学习资源
4.1 模拟环境:
- Isaac Gym(NVIDIA的物理模拟环境;GPU加速;超快):
- Sparrow(轻量级移动机器人模拟器;适合深度强化学习):
- ROS(流行且全面的机器人物理模拟器;较重且速度慢):
- Webots(流行的机器人物理模拟器;比ROS更快;真实性稍低):
4.2 书籍:
- 《强化学习:导论》--Richard S. Sutton
- 《深度学习入门:基于Python的理论与实现》--斋藤康毅
4.3 在线课程:
- 强化学习课程(bilibili)--李宏毅
- 强化学习课程(Youtube)--李宏毅
- UCL强化学习课程--David Silver
- 动手强化学习--上海交通大学
- 深度强化学习课程--王树森
4.4 博客:
- OpenAI Spinning Up
- 策略梯度定理 --Cangxi
- 策略梯度算法 --Lilian
- PPO定理
- 近端策略优化的37个实现细节
- 优先经验回放
- 软演员-评论员算法
- 强化学习深入探讨 --Lilian
- TD3算法简介
5. 重要论文
DQN: Mnih V, Kavukcuoglu K, Silver D, 等. 通过深度强化学习实现人类水平的控制[J]. 自然, 2015, 518(7540): 529-533.
Double DQN: Van Hasselt H, Guez A, Silver D. 具有双Q学习的深度强化学习[C]//AAAI人工智能会议论文集. 2016, 30(1).
Duel DQN: Wang, Ziyu, 等. "用于深度强化学习的决斗网络架构." 国际机器学习会议. PMLR, 2016.
PER: Schaul T, Quan J, Antonoglou I, 等. 优先经验回放[J]. arXiv预印本 arXiv:1511.05952, 2015.
C51: Bellemare M G, Dabney W, Munos R. 强化学习的分布式视角[C]//国际机器学习会议. PMLR, 2017: 449-458.
NoisyNet DQN: Fortunato M, Azar M G, Piot B, 等. 用于探索的噪声网络[J]. arXiv预印本 arXiv:1706.10295, 2017.
PPO: Schulman J, Wolski F, Dhariwal P, 等. 近端策略优化算法[J]. arXiv预印本 arXiv:1707.06347, 2017.
DDPG: Lillicrap T P, Hunt J J, Pritzel A, 等. 使用深度强化学习进行连续控制[J]. arXiv预印本 arXiv:1509.02971, 2015.
TD3: Fujimoto S, Hoof H, Meger D. 解决演员-评论家方法中的函数逼近误差[C]//国际机器学习会议. PMLR, 2018: 1587-1596.
SAC: Haarnoja T, Zhou A, Abbeel P, 等. 软演员-评论家:离策略最大熵深度强化学习与随机演员[C]//国际机器学习会议. PMLR, 2018: 1861-1870.
ASL: 一小时内训练真实世界局部路径规划器:通过部分解耦强化学习和矢量化多样性
6. 我的代码训练曲线:
Q学习:
决斗双重DQN:
CartPole | LunarLander |
---|---|
Atari游戏上的噪声对偶DDQN:
乒乓球 | 耐力赛车 |
---|---|
优先级DQN/DDQN:
平衡杆 | 月球着陆器 |
---|---|
分类DQN:
平衡杆 | 月球着陆器 |
---|---|
噪声网络DQN:
平衡杆 | 月球着陆器 |
---|---|
离散PPO:
连续PPO:
DDPG:
钟摆 | 连续月球着陆器 |
---|---|