#强化学习

leetcode-hard-gym - 用于评估代码生成智能体的LeetCode强化学习环境
Leetcode-Hard Gym强化学习代码生成编程语言环境接口Github开源项目
leetcode-hard-gym是一个基于OpenAI gym的强化学习环境,连接LeetCode提交服务器,用于评估代码生成智能体。该项目支持多种编程语言,并提供脚本构建未污染的LeetCode困难题目数据集。研究人员可以通过此环境设置、提交代码并获取评估结果,为代码生成研究提供便利工具。项目还包含一个排行榜,展示了不同AI模型在LeetCode困难题目上的表现,如GPT-4和Codex等。环境支持包括Python、Java、JavaScript在内的18种编程语言,为研究人员提供了广泛的评估选择。
pogema - 多智能体路径规划的灵活环境平台
POGEMA多智能体寻路部分可观测网格环境强化学习Github开源项目
POGEMA是一个专为部分可观测多智能体路径规划(PO-MAPF)研究设计的网格环境平台。该平台具有灵活性、可调节性和可扩展性,支持多种PO-MAPF场景。POGEMA允许智能体在网格中移动并避免碰撞,提供随机地图生成和自定义地图输入功能。此外,POGEMA与多个主流强化学习框架兼容,便于研究人员创建实验环境,探索分布式决策和多智能体协作导航等问题。
diffusion_policy - 扩散模型驱动的机器人控制算法实现复杂任务执行
Diffusion Policy机器人控制强化学习计算机视觉模拟环境Github开源项目
Diffusion Policy是一种基于扩散模型的机器人控制算法,旨在高效执行复杂任务。该项目提供实验日志、预训练检查点和完整代码库,支持模拟环境和真实机器人的训练与评估。其代码结构便于添加新任务和方法,同时保持灵活性。研究人员可复现实验结果,并将算法应用于多种机器人控制场景。
Eureka - 基于大型语言模型的人类级奖励设计算法
Eureka强化学习大语言模型奖励设计机器人控制Github开源项目
Eureka是一种基于大型语言模型的人类级奖励设计算法,利用GPT-4等先进LLM进行奖励代码的进化优化。在29个开源强化学习环境中,Eureka在83%的任务上超越人类专家,平均提升52%。该算法还实现了无梯度人类反馈强化学习方法,并首次展示了能以人类速度旋转笔的五指Shadow Hand仿真。
digirl - 用于训练真实环境设备控制智能体的自主强化学习方法
DigiRL强化学习设备控制自主学习Android环境Github开源项目
DigiRL项目提出了一种新型自主强化学习方法,用于训练真实环境中的设备控制智能体。该方法融合自动课程学习和双重稳健估计器过滤,支持离线、在线及离线到在线的训练模式。在Android设备操作任务中,DigiRL展现了优异性能,为开发适应性更强的智能设备控制系统提供了新思路。
awesome-exploration-rl - 强化学习探索策略全面指南
强化学习探索方法算法环境实验Github开源项目
该项目聚焦强化学习探索方法,提供最新研究论文、分类体系和可视化案例。涵盖经典和前沿探索策略,持续追踪领域进展。对研究人员和实践者而言是宝贵参考,可用于研究探索-利用权衡或解决具体挑战。项目内容全面且定期更新,是强化学习探索领域的重要资源库。
text2reward - 自动化强化学习奖励函数生成工具
Text2Reward强化学习奖励函数自动生成代码实现Github开源项目
Text2Reward是一个自动生成强化学习密集奖励函数的开源项目。该工具支持ManiSkill2和MetaWorld环境,提供零样本和少样本学习功能。项目包含代码实现、实验脚本和奖励生成模块,为强化学习研究提供了实用工具。Text2Reward简化了奖励函数设计流程,提升了学习效率,为强化学习研究开辟了新路径。
DI-hpc - 高性能计算组件加速强化学习算法
DI-HPC强化学习算法加速PyTorchCUDAGithub开源项目
DI-HPC是一款专为强化学习算法设计的高性能计算组件,主要用于加速GAE、n-step TD和LSTM等常见模块。该组件支持前向和反向传播,适用于训练、数据收集和测试环节。DI-HPC兼容CUDA环境和多个PyTorch版本,提供简便的安装方式和性能测试工具。通过提升计算效率,DI-HPC为强化学习研究和开发提供了有力支持。
RLeXplore - 统一模块化工具包助力内在动机强化学习研究
RLeXplore强化学习内在激励算法实现模块化Github开源项目
RLeXplore是一个统一的模块化工具包,实现了八种代表性内在奖励算法。它通过标准化的程序解决了内在奖励算法比较中的混淆因素,包括实现、优化和评估方法的差异。该工具包支持多种内在奖励类型,如基于计数、好奇心驱动、基于记忆和信息论。RLeXplore提供了简便的安装方法、详细教程和基准测试结果,为内在动机强化学习研究提供了有力支持。
sheeprl - 基于PyTorch的强化学习框架支持多种算法和环境
SheepRL强化学习PyTorchLightning Fabric算法实现Github开源项目
SheepRL是一个基于PyTorch和Lightning Fabric的强化学习框架。它支持PPO、SAC、Dreamer等多种算法,以及Atari、MuJoCo、Minecraft等多种环境。该框架易用可扩展,实现了算法与环境的解耦,适用于广泛的强化学习任务。在部分基准测试中,SheepRL展现出与其他框架相当甚至更优的性能,为强化学习研究和开发提供了高效工具。
FinRL-Trading - 基于机器学习的股票选择与交易策略平台
FinRLAI交易股票选择投资组合配置强化学习Github开源项目
FinRL-Trading是一个开源的交易策略开发平台,基于FinRL框架构建。该平台整合了监督学习和深度强化学习技术,用于股票选择和投资组合管理。FinRL-Trading提供金融数据处理、技术指标分析、股票筛选、资产配置和回测等功能,并支持部署到在线交易平台进行模拟交易。这个项目为研究人员和开发者提供了一个探索和实现AI驱动交易策略的工具,结合了机器学习、金融科技和算法交易等先进技术,旨在推动智能投资决策的发展。
FinRL_Podracer - 高效轻量的强化学习量化交易框架
强化学习量化交易Podracer金融科技算法策略Github开源项目
FinRL_Podracer是基于ElegantRL和FinRL构建的中级强化学习量化交易框架。该框架为开发者和专业人士提供轻量级、高效和稳定的算法交易策略开发解决方案。FinRL_Podracer支持DDPG、TD3、SAC等多种深度强化学习算法,适用于连续和离散动作空间。框架采用Pythonic设计原则,注重研究人员和算法交易者需求,支持灵活的代码迭代和精细控制。
flowRL - AI驱动的实时UI个性化平台
AI工具AI个性化用户界面优化实时适应收入增长强化学习
flowRL是一个实时UI个性化平台,利用AI和强化学习技术为用户提供定制化应用体验。该平台根据用户行为自动优化界面,提升留存率和收入等关键指标。相较于传统A/B测试,flowRL能够将产品收益提高2-3倍,同时减少数据收集和分析工作。这使得产品团队能够更专注于核心功能开发,从而推动产品持续增长。
tianshou - 基于PyTorch的高性能模块化强化学习框架
Tianshou强化学习深度学习PyTorch算法库Github开源项目
Tianshou是基于PyTorch和Gymnasium的强化学习框架,提供高性能、模块化设计和友好接口。支持在线、离线、多智能体及基于模型的算法,兼顾实现简洁和灵活性。特点包括向量化环境、RNN训练、自定义状态/动作等。框架涵盖多种先进算法,配有完善文档和测试,适合研究和应用开发。
Grounding_LLMs_with_online_RL - GLAM 强化学习优化大型语言模型的新方法
大语言模型强化学习BabyAI-TextGLAMLamorelGithub开源项目
这个开源项目开发了GLAM方法,通过在线强化学习优化大型语言模型在BabyAI-Text环境中的性能。项目提供了BabyAI-Text环境和实验代码,支持智能体训练和评估。研究者使用Lamorel库实现了PPO、DRRN等多种智能体。代码库包含详细的安装说明、配置文件和运行指南,便于其他研究人员复现和拓展相关研究。
crafter - 多维度评估AI代理能力的开放世界生存游戏
Crafter强化学习开放世界游戏代理能力评估环境基准Github开源项目
Crafter是一个开放世界生存游戏环境,专门用于评估AI代理的多方面能力。游戏提供随机生成的2D世界,AI需要完成寻找食物、建造庇护所、对抗怪物等任务。通过聚焦强泛化、深度探索等研究挑战,Crafter为强化学习提供了高效的基准测试。其语义化成就系统和快速迭代特性,显著降低了评估AI能力的计算需求。
LIBERO - 机器人学习知识转移基准平台
LIBERO机器人学习知识迁移操作任务强化学习Github开源项目
LIBERO是一个致力于研究多任务和终身机器人学习中知识转移的基准平台。它包含130个分组任务、过程生成管道、5个研究主题、3种视觉运动策略网络架构和3种终身学习算法。通过控制分布偏移和提供100个操作任务,LIBERO能够评估特定类型和复杂知识的迁移。该平台为机器人学习研究提供了全面的工具和数据集,有助于推动该领域的发展。
LLM-Optimizers-Papers - 大语言模型作为优化器与自动提示词优化的前沿研究
LLM优化器自动优化提示工程强化学习Github开源项目
该项目整理了大语言模型(LLM)作为优化器和LLM自动提示词优化领域的关键论文。内容涉及强化学习、进化算法等多种优化方法,呈现了LLM在自我优化和解决复杂任务方面的能力。这一资源库为人工智能、自然语言处理和优化算法研究者提供了重要参考。
android_env - 基于Android的强化学习平台
AndroidEnv强化学习Android系统触摸屏界面环境模拟Github开源项目
AndroidEnv是一个将Android设备转化为强化学习环境的Python库。该平台支持在Android系统上定义自定义任务,涵盖所有Android应用。智能体通过模拟触摸屏操作与设备交互,库则处理这些操作并返回像素观察和奖励信号。AndroidEnv适用于多种研究场景,如页面滚动、邮件发送或游戏得分等任务,为强化学习研究提供了丰富的实验环境。
rlax - JAX驱动的强化学习算法构建库
RLax强化学习JAX深度学习Python库Github开源项目
RLax是基于JAX的强化学习工具库,提供实现智能体所需的核心模块。支持价值估计、分布式价值函数、通用价值函数和策略梯度等功能,适用于在线和离线学习。借助JAX实现即时编译,RLax能在多种硬件上高效运行,为开发者提供灵活的工具构建强化学习算法。
rliable - 提升强化学习和机器学习评估可靠性的Python库
rliable强化学习评估方法置信区间性能分析Github开源项目
rliable是一个开源Python库,旨在提高强化学习和机器学习基准测试的评估可靠性。该库支持分层自举置信区间、性能曲线和聚合指标等功能,即使在数据有限的情况下也能得出可靠结论。rliable提供交互式Colab演示和多个主流基准测试数据,致力于克服现有评估方法的局限性,增强结果的可重复性和统计稳健性。
sbx - Jax加持的Stable-Baselines3强化学习库
Stable Baselines Jax强化学习机器学习算法实现开源项目Github
SBX是Stable-Baselines3的Jax实现版本,集成了SAC、TQC、PPO等多种先进强化学习算法。它与SB3保持相同API,可与RL Zoo无缝对接,并提供详细使用示例。SBX为复杂环境和任务提供高效、可靠的强化学习实现。
3DModelingRL - 深度强化学习在3D建模中的应用与突破
3D建模强化学习PyTorch计算机视觉ECCV 2020Github开源项目
3DModelingRL项目展示了一种创新的3D建模方法,利用深度强化学习模拟人类建模过程。项目包含Prim-Agent和Mesh-Agent两个核心组件,分别用于生成基于图元的表示和编辑网格。该方法在ECCV 2020会议发表,为3D建模领域开辟新方向。项目提供完整代码、预训练模型和数据集,便于研究者进一步探索和应用。
tdmpc2 - 跨领域连续控制的可扩展世界模型
TD-MPC2强化学习连续控制模型训练多任务学习Github开源项目
TD-MPC2是一种可扩展的基于模型的强化学习算法,在104个连续控制任务中展现出色性能。该算法使用317M参数的单一模型可执行80个跨领域任务。项目提供300多个模型检查点和多任务数据集,支持状态和像素输入,为模型强化学习研究提供重要资源。
evotorch - 基于PyTorch的高性能进化计算库
EvoTorch进化计算优化算法强化学习PyTorchGithub开源项目
EvoTorch是一个基于PyTorch的开源进化计算框架,支持黑盒优化、强化学习和监督学习等多种优化问题。它实现了PGPE、CMA-ES和遗传算法等多种进化算法,并通过GPU加速和Ray分布式计算提高优化效率。EvoTorch设计简洁易用,适合解决各类复杂优化问题,为研究人员和工程师提供了强大的工具支持。
dreamerv3 - 多领域任务的通用强化学习算法
DreamerV3强化学习世界模型AI训练性能优化Github开源项目
DreamerV3是一种创新的强化学习算法,通过世界模型实现多领域任务掌控。其特点是使用固定超参数,具有卓越的稳健性和扩展性。随着模型规模增加,性能和数据效率同步提升。该开源项目提供完整实现,包含训练脚本和使用指南,为研究人员和开发者提供了探索先进强化学习技术的平台。
iris - 基于Transformer的高效样本世界模型
IRIS世界模型Transformer自动编码器强化学习Github开源项目
IRIS是一种基于Transformer的世界模型,通过离散自编码器和自回归Transformer将动态学习转化为序列建模问题。该模型在世界模型中训练数百万个想象轨迹,实现了高效的数据利用。IRIS仅需两小时实时经验就能在多个Atari游戏中表现出色,展现了优秀的样本效率和泛化能力。
overcooked_ai - 基于游戏的多智能体协作研究平台
Overcooked-AI人工智能协作任务强化学习环境基准Github开源项目
Overcooked_ai是一个基于热门游戏Overcooked的多智能体协作研究平台。该项目模拟厨房协作烹饪场景,提供环境模拟、智能体训练和评估等功能。它要求AI智能体高效配合完成煮汤等任务,支持人机协作研究。作为重要的基准平台,Overcooked_ai已被多篇顶会论文采用,对推进人工智能协作研究具有重要意义。
panda-gym - 机器人学习环境集,基于PyBullet和gymnasium
panda-gym机器人环境PyBulletgymnasium强化学习Github开源项目
panda-gym是基于PyBullet物理引擎和gymnasium的机器人环境集,提供抓取、推动、滑动等多种任务环境。项目支持随机动作采样和人机交互渲染,并提供预训练模型和基准测试结果。panda-gym安装简便,适用于机器人学习研究。
lab2d - 高效灵活的2D网格环境创建工具,专为机器学习研究设计
DeepMind Lab2D机器学习网格世界环境创建强化学习Github开源项目
DeepMind Lab2D是一个专为机器学习研究设计的2D环境创建系统。它通过文本地图和Lua代码定义网格世界,兼具易用性和高性能。系统支持多智能体交互,提供Python dm_env API和C API接口。适用于Linux和macOS平台,可通过pip安装或源码构建。DeepMind Lab2D为研究人员提供了一个灵活高效的2D环境开发工具。
humanoid-gym - 人形机器人强化学习框架实现零样本仿真到现实转移
Humanoid-Gym强化学习仿真到现实人形机器人locomotionGithub开源项目
Humanoid-Gym是一个基于Nvidia Isaac Gym的强化学习框架,专门用于训练人形机器人的运动技能。该框架实现了从仿真到现实环境的零样本转移,并整合了Isaac Gym到Mujoco的仿真转换功能,用于验证训练策略的鲁棒性和泛化能力。项目在RobotEra的XBot-S和XBot-L真实机器人上成功实现了零样本仿真到现实转移,并提供了详细的训练指南、配置说明和执行脚本,便于训练和优化人形机器人的运动技能。
awesome-machine-learning-in-compilers - 编译器和程序优化中的机器学习资源集锦
机器学习编译器优化程序优化自动调优强化学习Github开源项目
这个项目收集了机器学习在编译器和程序优化领域的重要资源,包括研究论文、数据集和工具。涵盖迭代编译、指令级优化、并行映射等多个主题,提供了全面的参考材料。除学术资源外,还包括相关书籍、演讲、软件和基准测试,是该领域研究和开发的综合指南。
POMDPs.jl - Julia语言的马尔可夫决策过程求解接口
POMDPsMDPJulia强化学习决策过程Github开源项目
POMDPs.jl是Julia语言中用于处理马尔可夫决策过程(MDP)和部分可观测马尔可夫决策过程(POMDP)的核心接口包。它为表达问题、编写求解器和运行仿真提供了统一的编程接口。该项目支持多种求解器和工具包,适用于离散和连续问题。POMDPs.jl集成了多个相关生态系统,并提供详细文档和教程,是一个处理决策不确定性的综合框架。
PARL - 灵活高效的强化学习开源框架
PARL强化学习并行计算分布式训练深度学习Github开源项目
PARL是一个开源的强化学习框架,专注于提供高效、灵活的开发环境。该框架具有良好的可复现性、大规模训练支持、高可重用性和易扩展性。PARL基于Model、Algorithm和Agent三个核心抽象,并提供简洁的分布式训练API。框架支持DQN、DDPG、SAC等多种算法实现,在多个强化学习挑战赛中表现出色。PARL适用于各类复杂任务的智能体训练,为强化学习研究和应用提供了有力工具。
mushroom-rl - 模块化强化学习Python库MushroomRL
MushroomRL强化学习Python库深度学习机器学习Github开源项目
MushroomRL是一个模块化的Python强化学习库,集成主流张量计算库和RL基准测试环境。它实现了经典和深度强化学习算法,便于进行RL实验。该库兼容OpenAI Gym、PyBullet等环境,涵盖Q-Learning、DQN、DDPG等算法。MushroomRL还支持Habitat和iGibson等高真实度模拟环境,为研究提供多样化选择。
awesome-monte-carlo-tree-search-papers - 精选蒙特卡洛树搜索论文资源库
Monte Carlo树搜索强化学习人工智能机器学习算法优化Github开源项目
该项目收集了机器学习、计算机视觉、自然语言处理等多个领域的蒙特卡洛树搜索(MCTS)相关论文。涵盖顶级会议和期刊发表的最新研究成果,并提供部分论文的代码实现。这一资源库为研究人员和开发者提供了全面了解MCTS在各领域应用和进展的机会。