平衡杆
OpenAI的平衡杆 的强化学习解决方案。
查看相应的Medium文章:平衡杆 - 强化学习介绍(DQN - 深度Q学习)
关于
一个杆子通过一个无驱动关节连接到一个小车上,小车沿着无摩擦轨道移动。通过对小车施加+1或-1的力来控制系统。摆杆从垂直开始,目标是防止它倒下。每当杆子保持直立时会提供+1的奖励。当杆子离开垂直超过15度或小车离中心超过2.4个单位时,实验终止。来源
DQN
标准DQN与经验回放。
超参数:
- GAMMA = 0.95
- 学习率 = 0.001
- 记忆大小 = 1000000
- 批量大小 = 20
- 最大探索 = 1.0
- 最小探索 = 0.01
- 探索衰减 = 0.995
模型结构:
- 全连接层 - 输入:4,输出:24,激活函数:relu
- 全连接层 - 输入24,输出:24,激活函数:relu
- 全连接层 - 输入24,输出:2,激活函数:linear
- MSE 损失函数
- Adam 优化器
性能
CartPole-v0 规定“解决”的标准是100次连续试验中获得平均195.0的奖励。来源
示例试验gif
示例试验图表
解决的试验图表
作者
Greg (Grzegorz) Surma