SKRL:面向强化学习的模块化开源框架

skrl

SKRL:面向强化学习的模块化开源框架

SKRL(Skill Reinforcement Learning)是一个基于PyTorch和JAX的开源强化学习库,由Mondragon University的研究人员开发。该项目旨在为强化学习研究和应用提供一个模块化、易读且透明的代码实现框架。

主要特性

SKRL的主要特性包括:

模块化设计:各个组件如智能体、环境、模型等都采用模块化设计,便于扩展和定制。
多框架支持:同时支持PyTorch和JAX两个深度学习框架,用户可以根据需求选择。
多环境接口:支持OpenAI Gym/Farama Gymnasium、DeepMind等主流强化学习环境接口。
NVIDIA Isaac集成:可以无缝加载和配置NVIDIA Isaac Gym、Omniverse Isaac Gym和Isaac Lab环境。
同步训练:支持在同一次运行中同时训练多个智能体,可以分别针对不同的环境子集。
算法透明:注重算法实现的可读性和透明度,方便用户理解和修改。
文档完善:提供详细的API文档和使用示例。

支持的算法

SKRL实现了多种经典和最新的强化学习算法,包括但不限于:

DQN (Deep Q-Network)
DDQN (Double DQN)
A2C (Advantage Actor-Critic)
DDPG (Deep Deterministic Policy Gradient)
TD3 (Twin Delayed DDPG)
PPO (Proximal Policy Optimization)
SAC (Soft Actor-Critic)
TRPO (Trust Region Policy Optimization)

此外,SKRL还支持一些特殊算法如AMP(Adversarial Motion Priors)用于物理角色动画等。

环境支持

除了支持标准的Gym/Gymnasium接口外,SKRL对NVIDIA Isaac系列仿真器提供了深度集成:

NVIDIA Isaac Gym:高性能的并行物理仿真环境。
NVIDIA Omniverse Isaac Gym:基于Omniverse平台的高保真物理仿真。
NVIDIA Isaac Lab:用于机器人学习的端到端仿真平台。

这些集成使得SKRL非常适合进行机器人和物理控制相关的强化学习研究。

使用示例

以下是使用SKRL训练PPO智能体的简单示例:

import gym
from skrl.agents.torch import PPO
from skrl.trainers.torch import SequentialTrainer
from skrl.envs.torch import wrap_env

# 创建并包装环境
env = wrap_env(gym.make("CartPole-v1"))

# 创建PPO智能体
agent = PPO(env.observation_space, env.action_space)

# 创建训练器
trainer = SequentialTrainer(
    agent=agent, 
    env=env,
    episodes=1000,
    steps=500
)

# 开始训练
trainer.train()

这个简单的例子展示了SKRL的易用性。用户只需几行代码就可以设置环境、智能体和训练流程。