pytorch-rl

项目介绍：Pytorch-RL

Pytorch-rl 是一个实现深度强化学习算法的开源项目，项目采用了 Pytorch 框架。Pytorch-rl 特别注重于连续动作空间的算法，因此在处理涉及连续动作的任务时，能够高效地在 CPU 或 GPU 上进行训练。此外，pytorch-rl 直接兼容 OpenAI Gym，这让算法的评估和修改变得非常简单。同时，用户可以根据自己的需求扩展此项目。

安装指南

Pytorch-rl 可以通过 Pypi 安装，推荐使用以下命令进行安装：

pip install pytorch-policy

依赖项

为了成功运行 pytorch-rl，需要以下依赖项：

Pytorch
Gym (OpenAI)
mujoco-py（用于物理仿真和 Gym 中的机器人环境）
Pybullet（即将支持）
MPI（仅支持 mpi backend 下的 Pytorch 安装）
Tensorboardx

支持的强化学习算法

pytorch-rl 支持多种强化学习算法，以下列出了一些主要算法：

DQN（配合双 Q 学习）
DDPG
DDPG与HER（用于OpenAI Fetch环境）
层次化强化学习
优先经验回放 + DDPG
DDPG 与优先后见经验回放（研究中）
Neural Map 与 A3C（即将支持）
Rainbow DQN（即将支持）
PPO
自注意力目标替换的 HER（研究中）
A3C（即将支持）
ACER（即将支持）
DARLA
TDM
世界模型
软演员评论家算法
赋能驱动探索

支持的环境

此项目支持多种强化学习环境，其中包括：

Breakout
Pong（即将支持）
手部操作机器人任务
Fetch-Reach 机器人任务
手部到达机器人任务
块操作机器人任务
Montezuma's Revenge（当前研究）
Pitfall
Gravitar
CarRacing
Super Mario Bros（须安装 gym-retro）
OpenSim 人工义肢挑战

环境建模

Pytorch-rl 项目使用了多种 GAN 训练技巧，以解决生成器和判别器训练不稳定的问题。尽管如此，训练 GAN 到收敛仍然非常困难。不过，采用 Spectral Normalization 技术后，infogan 成功收敛。在图像到图像转换任务和一般 VAE 训练过程中，使用 Skip Connection 表现出色。

一些包含的建模技术有：