强化学习理论书籍(俄文)
完整书籍在Arxiv上: https://arxiv.org/abs/2201.09746
- 第1章:引言
- 第2章:元启发式算法
- NEAT, WANN
- CEM, OpenAI-ES, CMA-ES
- 第3章:经典理论
- 贝尔曼方程
- RPI,策略改进定理
- 价值迭代,广义策略迭代
- 时序差分,Q学习,SARSA
- 资格迹,TD(λ),Retrace
- 第4章:基于价值的方法
- DQN
- 双重DQN,决斗DQN,优先经验回放,噪声DQN,多步DQN
- c51,QR-DQN,IQN,Rainbow DQN
- 第5章:策略梯度
- REINFORCE,A2C,GAE
- TRPO,PPO
- 第6章:连续控制
- DDPG,TD3
- SAC
- 第7章:基于模型的方法
- 多臂赌博机
- MCTS,AlphaZero,MuZero
- LQR
- 第8章:下一阶段
- 模仿学习/逆强化学习
- 内在动机
- 多任务和后见之明
- 分层强化学习
- 部分可观察性
- 多智能体强化学习