#强化学习

rainbow-is-all-you-need - 从DQN到Rainbow的深度强化学习方法
RainbowDQN强化学习深度学习ColabGithub开源项目
本教程详细介绍了从DQN到Rainbow的深度强化学习方法,包含理论背景和面向对象的实现。每章节都可以在Colab上直接运行,适合快速学习。涵盖DQN、DoubleDQN、优先经验回放、对抗网络、噪声网络、分布式DQN和N步学习等多个主题,欢迎贡献改进建议或代码。
bindsnet - 模拟尖峰神经网络的生物启发机器学习算法
BindsNET脉冲神经网络PyTorch机器学习强化学习Github开源项目
BindsNET是一个Python库,通过PyTorch的Tensor功能在CPU或GPU上模拟尖峰神经网络(SNNs)。该库旨在开发生物启发的机器学习和强化学习算法,包含丰富的实验示例和结果分析。BindsNET还兼容OpenAI gym环境库,并支持Docker镜像部署。这一项目在生物启发神经与动态系统实验室进行,核心理念是利用尖峰时间依赖可塑性(STDP)来调整神经元间的突触权重,以解决机器学习和强化学习中的问题。
ai_quant_trade - AI量化交易平台,支持策略学习与实盘操作
股票AI操盘手强化学习因子挖掘机器学习深度学习Github开源项目
此平台提供从学习、模拟到实盘的一站式AI量化交易服务,涵盖因子挖掘、机器学习、深度学习和强化学习等策略,配备辅助操盘工具。详细教程和多种策略案例适合机构和个体投资者,支持高频交易和股票推荐。最新功能包括StructBERT市场情绪分析、强化学习交易和机器学习自动挖掘因子。
d3rlpy - 支持离线和在线深度强化学习的实用算法库
d3rlpy强化学习离线RL算法安装Github开源项目
d3rlpy是一个为实践者和研究人员打造的深度强化学习库,支持离线和在线强化学习算法。无需掌握深度学习库,即可通过其直观的API使用多种先进算法。d3rlpy提供丰富的文档和教程,首创支持分布式Q函数,适用于机器人和医疗等复杂场景。兼容Linux、macOS和Windows,多种安装方式可供选择,欢迎试用和贡献代码。
agents - 可靠、可扩展且易于使用的TensorFlow Contextual Bandits和强化学习库
TF-AgentsTensorFlow强化学习上下文赌博机PythonGithub开源项目
TF-Agents是一个简化实现、部署和测试新Contextual Bandits和强化学习算法的TensorFlow库。它提供了经过充分测试和模块化的组件,方便修改与扩展,加快代码迭代,并拥有良好的测试集成和基准测试功能。TF-Agents支持多种知名算法如DQN、DDPG和PPO,配有详尽的教程和示例,帮助用户快速上手。无论是稳定版还是夜间版,都可以根据需求进行安装使用,且库的开发保持积极进行以确保灵活与前沿。
PPO-PyTorch - 使用PyTorch实现的简易PPO算法工具
PPO-PyTorch强化学习OpenAI gymProximal Policy Optimization超参数调整Github开源项目
该项目提供了一个基于PyTorch的简易PPO算法实现,适用于OpenAI Gym环境,帮助初学者理解PPO。更新内容包括整合离散和连续算法,并引入了线性衰减机制。用户可以通过PPO_colab.ipynb在Google Colab中便捷地训练、测试和绘制图表。项目支持单线程执行,并提供日志记录、可视化和动画生成工具。
machine-learning - 机器学习与数据科学教程,深度学习、模型部署与强化学习
machine-learning深度学习模型部署强化学习时间序列Github开源项目
本项目持续更新,介绍了数据科学和机器学习各个主题。内容涵盖深度学习、模型部署、运筹学和强化学习等,提供Jupyter Notebook格式教程,结合Python科学栈(如numpy、pandas)和开源库(如scikit-learn、TensorFlow、PyTorch)进行教学示范,平衡数学符号与实际应用。
ViZDoom - AI视觉强化学习平台,支持多平台与多语言
ViZDoom强化学习深度学习视觉学习APIGithub开源项目
ViZDoom平台基于ZDoom引擎,可通过视觉信息训练AI玩Doom游戏,适用于视觉学习和深度强化学习研究。支持Linux、macOS和Windows平台,提供Python和C++ API以及Gymnasium/OpenAI Gym环境封装。该平台具备自定义场景创建、同步和异步多玩家模式、可调分辨率和渲染参数,还支持3D视觉和音频缓冲区访问。
awesome-decision-transformer - 基于序列模型的离线强化学习新方法
Decision Transformer强化学习序列建模Transformer离线学习Github开源项目
Decision Transformer (DT)是一种将离线强化学习转化为条件序列建模的创新方法。本项目收集了DT相关研究论文,涵盖多智能体系统、安全强化学习、多任务学习等应用领域。通过持续追踪DT的前沿进展,为研究人员提供全面的资源,促进这一算法在各个领域的发展和应用。
easy-rl - 强化学习综合教程 从理论到实践
强化学习蘑菇书教程算法实战深度学习Github开源项目
Easy RL是一本全面的强化学习教程,涵盖从基础理论到高级算法的系统知识。内容包括马尔可夫决策过程、Q学习、策略梯度、PPO和DQN等关键概念。通过实例和项目,读者可掌握核心理论和实践技能。教程提供在线阅读、配套习题、代码和补充资源,适合强化学习初学者系统学习使用。
gymnax - JAX驱动的高效强化学习环境集合
gymnax强化学习JAX环境仿真加速计算Github开源项目
gymnax是基于JAX构建的强化学习环境库,充分利用JAX的即时编译和向量化功能,显著提升了传统gym API的性能。该库涵盖经典控制、bsuite和MinAtar等多种环境,支持精确控制环境参数。通过在加速器上并行处理环境和策略,gymnax实现了高效的强化学习实验,尤其适合大规模并行和元强化学习研究。
CAGrad - 高效优化多任务学习的梯度冲突
多任务学习梯度下降CAGradNeurIPS强化学习Github开源项目
CAGrad是一种多任务学习算法,专注于解决梯度冲突问题。该方法通过冲突避免策略平衡各任务目标,在图像预测和强化学习领域表现出色。CAGrad实现简洁,适用于复杂的多任务场景,为相关研究提供新思路。该项目已被NeurIPS 2021接收,并提供了完整的源代码和实验指南。
Gymnasium - Python强化学习标准API和环境开源库
Gymnasium强化学习Python库AI环境开源项目Github
Gymnasium是一个用于开发和比较强化学习算法的开源Python库,提供标准API和丰富的环境集。它包括经典控制、Box2D、玩具文本、MuJoCo和Atari等多种环境类型,促进算法与环境的高效交互。作为OpenAI Gym的延续,Gymnasium现由独立团队维护,提供完善的文档和活跃的社区支持。该库采用严格的版本控制以确保实验可重复性,并提供灵活的安装选项满足不同用户需求。
mctx - 高效JAX实现的蒙特卡洛树搜索库
MctxJAX蒙特卡洛树搜索强化学习深度学习Github开源项目
Mctx是一个基于JAX的蒙特卡洛树搜索库,实现了AlphaZero和MuZero等算法。该库支持JIT编译和并行批处理,以提高计算效率。Mctx平衡了性能和易用性,为研究人员提供了探索搜索型强化学习算法的便利工具。它包含通用搜索函数和具体策略实现,用户只需提供学习到的环境模型组件即可使用。
jumanji - JAX驱动的多样化强化学习环境套件 加速研究与应用
Jumanji强化学习JAX环境套件开源项目Github
Jumanji是一个基于JAX的强化学习环境套件,提供22个可扩展环境。通过硬件加速,它支持快速迭代和大规模实验。简洁API、丰富环境、主流框架兼容性和示例代码使强化学习研究更易开展,同时促进研究成果向工业应用转化。
DRLX - 强化学习框架优化扩散模型
DRLX扩散模型强化学习分布式训练Stable DiffusionGithub开源项目
DRLX是一个基于强化学习的扩散模型分布式训练库。它与Hugging Face的Diffusers库集成,支持多GPU和多节点训练。DRLX兼容Stable Diffusion等模型,实现DDPO算法训练。该库采用即插即用设计,训练模型可直接用于原始管道。DRLX集成了美学评分奖励模型和PickAPic提示词生成功能,为扩散模型研究提供了全面的工具集。
motif - 利用大语言模型偏好生成奖励函数的强化学习框架
MotifAI强化学习NetHack大语言模型Github开源项目
Motif是一个新型强化学习框架,通过大型语言模型的偏好生成奖励函数。它分为数据集注释、奖励函数训练和强化学习三个阶段。在NetHack游戏中,Motif展现出优秀性能,生成符合人类直觉的行为,并可通过提示词灵活调整。这种方法为开发智能AI代理提供了新的研究方向,具有良好的扩展潜力。
hands-on-rl - 实践驱动的强化学习进阶教程
强化学习课程Python机器学习深度学习Github开源项目
hands-on-rl项目提供一套系统化的强化学习实践教程。该教程涵盖从Q-learning到策略梯度等核心算法,通过递进难度的案例帮助学习者掌握RL技术。内容包括出租车驾驶和登月模拟等实例,并结合深度学习知识。教程提供Python代码实现和详细解释,适合希望深入学习强化学习的研究者和开发者。
OpenRLHF - 高性能强化学习框架助力大规模语言模型优化
OpenRLHFRLHF框架强化学习分布式训练模型微调Github开源项目
OpenRLHF是一款基于Ray、DeepSpeed和Hugging Face Transformers构建的高性能强化学习框架。该框架简单易用,兼容Hugging Face模型和数据集,性能优于优化后的DeepSpeedChat。它支持分布式RLHF,能够在多GPU环境下进行70B+参数模型的全规模微调。OpenRLHF集成了多项PPO实现技巧以提升训练稳定性,同时支持vLLM生成加速和多奖励模型等先进特性,为大规模语言模型优化提供了强大支持。
trl - 用于大型语言模型微调和对齐的开源工具库
TRL微调大语言模型强化学习TransformerGithub开源项目
TRL是一个开源的全栈工具库,专用于大型语言模型的微调和对齐。它支持监督式微调、奖励建模和近端策略优化等方法,适用于多种模型架构。该库基于Transformers构建,提供灵活的训练器和自动模型类,并集成Accelerate、PEFT等工具实现高效扩展。TRL还提供命令行界面,方便用户进行模型微调和交互。
omnisafe - 安全强化学习框架加速AI系统安全研究
SafeRLOmniSafe强化学习安全强化学习算法框架Github开源项目
OmniSafe是一个用于安全强化学习(SafeRL)研究的开源框架。它提供了全面的SafeRL算法基准测试和模块化工具包。该框架采用高度模块化设计,支持高性能并行计算,并提供开箱即用的工具。OmniSafe实现了多种类型的SafeRL算法,包括基于策略、无模型和基于模型等。通过丰富的教程和API,框架适合不同水平的研究人员使用。OmniSafe致力于推动SafeRL领域的发展,为AI系统安全性研究提供重要支持。
HEBO - 华为开源贝叶斯优化与强化学习研究框架
贝叶斯优化强化学习机器学习人工智能Huawei Noah's Ark LabGithub开源项目
HEBO是华为诺亚方舟实验室开发的开源研究框架,聚焦贝叶斯优化和强化学习领域。该框架包含HEBO、MCBO、NAP等多个前沿项目,涉及高维优化、元学习、组合优化等研究方向。HEBO提供创新算法和基准测试,旨在推动相关技术发展。研究人员可利用此框架开发评估新算法,解决实际应用中的复杂优化问题。
Miniworld - 轻量级3D室内环境模拟器 强化学习与机器人研究利器
Miniworld强化学习3D环境模拟Python开源项目Github
Miniworld作为轻量级3D室内环境模拟器,为强化学习和机器人研究提供了简单而灵活的平台。它模拟了基本的室内场景,支持高性能多进程运行,资源需求低。虽然图形和物理模拟较为基础,但其易用性和可扩展性使其成为VizDoom或DMLab的有力替代。Miniworld还支持域随机化和深度图生成,适合各类研究需求。
financial-machine-learning - 金融机器学习资源汇总与实践指南
金融机器学习算法交易深度学习强化学习量化交易Github开源项目
这个项目收集了金融机器学习(FinML)领域的精选工具和应用。主要包括Python资源,涵盖深度学习、强化学习和股票预测模型等。此外还提供交易微服务系统和量化机器学习交易等实用内容。项目为金融科技领域的机器学习应用提供了全面的学习和参考资料。
Minigrid - 离散网格世界强化学习环境库 支持多样化任务和语言指令
Minigrid强化学习网格世界环境GymnasiumBabyAIGithub开源项目
Minigrid是一个用于强化学习研究的离散网格世界环境库。它采用Gymnasium标准API,具有轻量、快速和易定制的特点。该库包含原始Minigrid和BabyAI两类环境,提供多种目标导向和分层任务,如物品操作、门禁管理和迷宫导航等。BabyAI环境还集成了基于语言的任务指令生成功能,有助于语言学习研究。Minigrid支持通过编程调整环境复杂度,便于实施课程学习和难度优化。
lerobot - 实用机器学习库助力实际机器人开发
LeRobot机器人强化学习模拟环境预训练模型Github开源项目
LeRobot是一个基于PyTorch的机器人应用开发库,提供模型、数据集和工具。它侧重模仿学习和强化学习,包含预训练模型、人类示范数据集和仿真环境,降低机器人技术门槛。该库支持ALOHA、PushT和XArm等多种环境和策略,未来将扩展实际机器人支持。LeRobot旨在促进数据集和预训练模型的共享,推动机器人技术发展。
envpool - 高性能并行强化学习环境执行引擎
EnvPool强化学习环境仿真高性能计算并行处理Github开源项目
EnvPool是一款基于C++的高性能并行强化学习环境引擎。它支持Atari、Mujoco等多种环境,提供同步和异步执行模式,适用于单玩家和多玩家场景。EnvPool易于集成新环境,在高端硬件上可达到每秒100万Atari帧或300万Mujoco步骤的模拟速度,比传统Python子进程方法快约20倍。作为通用解决方案,EnvPool可显著加速各类强化学习环境的并行化执行。
awesome-model-based-RL - 模型化强化学习论文与资源汇总
强化学习模型学习世界模型DreamerMCTSGithub开源项目
本项目汇集了模型化强化学习(Model-Based RL)领域的精选研究论文,持续更新前沿进展。项目提供了将算法分为'学习模型'和'给定模型'两类的分类方法。收录内容包括经典论文、最新会议论文、教程和代码库,涵盖从基础理论到应用的多个主题。这一资源集合为研究人员提供了全面的参考材料,反映了模型化强化学习领域的发展动态。
flashbax - JAX强化学习高效体验回放缓冲库
Flashbax经验回放缓冲区强化学习JAX深度学习Github开源项目
Flashbax是一个为JAX设计的高效体验回放缓冲库,适用于强化学习算法。它提供平坦缓冲、轨迹缓冲及其优先级变体等多种缓冲类型,特点是高效内存使用、易于集成到编译函数中,并支持优先级采样。Flashbax还具有Vault功能,可将大型缓冲区保存到磁盘。这个简单灵活的框架适用于学术研究、工业应用和个人项目中的体验回放处理。
PPO-for-Beginners - PyTorch实现近端策略优化算法详解
PPO强化学习PyTorch神经网络策略优化Github开源项目
该项目提供使用PyTorch从零实现近端策略优化(PPO)算法的教程。代码精简、注释详尽、结构清晰。涵盖PPO算法核心概念、网络实现及完整训练流程。适合想深入理解PPO算法细节的强化学习爱好者。
DI-engine-docs - 全面的决策智能和强化学习开源教育平台
DI-engine决策智能强化学习文档OpenDILabGithub开源项目
DI-engine-docs是一个开源教育平台,提供决策智能和DI-engine的学习资源。平台内容涵盖DI-engine介绍、强化学习概念、算法分类、环境示例和自定义环境迁移教程等。该文档为研究人员和开发者提供全面的学习材料,支持决策智能领域的研究和应用。
awesome-diffusion-model-in-rl - 扩散模型在强化学习领域的最新研究进展汇总
Diffusion Model强化学习轨迹优化离线强化学习机器人操作Github开源项目
本项目汇总了强化学习领域应用扩散模型的最新研究论文,涵盖离线RL、机器人控制、轨迹规划等多个方向。持续追踪并整理扩散强化学习的前沿进展,为研究人员提供全面的参考资源。每篇论文均附有概述、代码链接和实验环境等详细信息,方便读者深入了解。
DI-star - 开源星际争霸II AI训练框架
StarCraft IIAI强化学习监督学习游戏智能Github开源项目
DI-star是一个为星际争霸II设计的开源AI训练框架。它提供预训练模型、对战演示和训练代码,支持监督学习和强化学习。该平台已训练出大师级AI,并支持多种测试模式。DI-star适用于Windows和Linux系统,为研究人员提供了构建和训练自定义AI代理的工具。
rsl_rl - 面向GPU的高效强化学习框架
RSL RL强化学习GPU运行PPO算法开源项目Github
rsl_rl是一个专为GPU运行优化的强化学习框架,目前实现了PPO算法,未来将支持更多算法。框架提供详细的安装指南,集成多种日志工具,并采用严格的代码质量管理。它在Legged-Gym和Orbit等机器人仿真环境中得到应用,为强化学习研究和开发提供了高效工具。
tinyzero - 简易强化学习框架 快速训练类AlphaZero智能体
AlphaZero强化学习神经网络蒙特卡洛树搜索环境模拟Github开源项目
tinyzero是一个简易的强化学习框架,用于在任意环境中训练类AlphaZero的智能体。该框架提供简单接口实现新环境、模型和智能体,支持多种游戏类型。tinyzero采用Monte Carlo树搜索和深度学习技术,可在Google Colab上快速部署,适合研究人员和爱好者探索AI在各类任务中的应用。
ml-agents - 用于游戏和模拟环境的开源智能代理训练工具
Unity ML-Agents ToolkitAI强化学习模拟环境游戏开发Github开源项目
Unity ML-Agents Toolkit是一个开源项目,利用游戏和模拟环境训练智能代理。集成了基于PyTorch的先进算法,用户可以轻松训练2D、3D和VR/AR游戏中的智能代理。支持强化学习、模仿学习和神经进化等方法,适用于NPC行为控制、自动化测试和游戏设计评估。该工具包为游戏开发者和AI研究人员提供了一个共享平台,助力在Unity丰富环境中测试AI进展,并惠及广泛的研究和开发社区。