#强化学习

BindsNET是一个Python库，通过PyTorch的Tensor功能在CPU或GPU上模拟尖峰神经网络（SNNs）。该库旨在开发生物启发的机器学习和强化学习算法，包含丰富的实验示例和结果分析。BindsNET还兼容OpenAI gym环境库，并支持Docker镜像部署。这一项目在生物启发神经与动态系统实验室进行，核心理念是利用尖峰时间依赖可塑性（STDP）来调整神经元间的突触权重，以解决机器学习和强化学习中的问题。

ai_quant_trade - AI量化交易平台，支持策略学习与实盘操作

股票AI操盘手强化学习因子挖掘机器学习深度学习Github开源项目

此平台提供从学习、模拟到实盘的一站式AI量化交易服务，涵盖因子挖掘、机器学习、深度学习和强化学习等策略，配备辅助操盘工具。详细教程和多种策略案例适合机构和个体投资者，支持高频交易和股票推荐。最新功能包括StructBERT市场情绪分析、强化学习交易和机器学习自动挖掘因子。

d3rlpy - 支持离线和在线深度强化学习的实用算法库

d3rlpy强化学习离线RL算法安装Github开源项目

d3rlpy是一个为实践者和研究人员打造的深度强化学习库，支持离线和在线强化学习算法。无需掌握深度学习库，即可通过其直观的API使用多种先进算法。d3rlpy提供丰富的文档和教程，首创支持分布式Q函数，适用于机器人和医疗等复杂场景。兼容Linux、macOS和Windows，多种安装方式可供选择，欢迎试用和贡献代码。

agents - 可靠、可扩展且易于使用的TensorFlow Contextual Bandits和强化学习库

TF-AgentsTensorFlow强化学习上下文赌博机PythonGithub开源项目

TF-Agents是一个简化实现、部署和测试新Contextual Bandits和强化学习算法的TensorFlow库。它提供了经过充分测试和模块化的组件，方便修改与扩展，加快代码迭代，并拥有良好的测试集成和基准测试功能。TF-Agents支持多种知名算法如DQN、DDPG和PPO，配有详尽的教程和示例，帮助用户快速上手。无论是稳定版还是夜间版，都可以根据需求进行安装使用，且库的开发保持积极进行以确保灵活与前沿。

PPO-PyTorch - 使用PyTorch实现的简易PPO算法工具

PPO-PyTorch强化学习OpenAI gymProximal Policy Optimization超参数调整Github开源项目

该项目提供了一个基于PyTorch的简易PPO算法实现，适用于OpenAI Gym环境，帮助初学者理解PPO。更新内容包括整合离散和连续算法，并引入了线性衰减机制。用户可以通过PPO_colab.ipynb在Google Colab中便捷地训练、测试和绘制图表。项目支持单线程执行，并提供日志记录、可视化和动画生成工具。

machine-learning - 机器学习与数据科学教程，深度学习、模型部署与强化学习

machine-learning深度学习模型部署强化学习时间序列Github开源项目

本项目持续更新，介绍了数据科学和机器学习各个主题。内容涵盖深度学习、模型部署、运筹学和强化学习等，提供Jupyter Notebook格式教程，结合Python科学栈（如numpy、pandas）和开源库（如scikit-learn、TensorFlow、PyTorch）进行教学示范，平衡数学符号与实际应用。

ViZDoom - AI视觉强化学习平台，支持多平台与多语言

ViZDoom强化学习深度学习视觉学习APIGithub开源项目

ViZDoom平台基于ZDoom引擎，可通过视觉信息训练AI玩Doom游戏，适用于视觉学习和深度强化学习研究。支持Linux、macOS和Windows平台，提供Python和C++ API以及Gymnasium/OpenAI Gym环境封装。该平台具备自定义场景创建、同步和异步多玩家模式、可调分辨率和渲染参数，还支持3D视觉和音频缓冲区访问。

awesome-decision-transformer - 基于序列模型的离线强化学习新方法

Decision Transformer强化学习序列建模Transformer离线学习Github开源项目

Decision Transformer (DT)是一种将离线强化学习转化为条件序列建模的创新方法。本项目收集了DT相关研究论文,涵盖多智能体系统、安全强化学习、多任务学习等应用领域。通过持续追踪DT的前沿进展,为研究人员提供全面的资源,促进这一算法在各个领域的发展和应用。

easy-rl - 强化学习综合教程从理论到实践

强化学习蘑菇书教程算法实战深度学习Github开源项目

Easy RL是一本全面的强化学习教程,涵盖从基础理论到高级算法的系统知识。内容包括马尔可夫决策过程、Q学习、策略梯度、PPO和DQN等关键概念。通过实例和项目,读者可掌握核心理论和实践技能。教程提供在线阅读、配套习题、代码和补充资源,适合强化学习初学者系统学习使用。

gymnax - JAX驱动的高效强化学习环境集合

gymnax强化学习JAX环境仿真加速计算Github开源项目

gymnax是基于JAX构建的强化学习环境库，充分利用JAX的即时编译和向量化功能，显著提升了传统gym API的性能。该库涵盖经典控制、bsuite和MinAtar等多种环境，支持精确控制环境参数。通过在加速器上并行处理环境和策略，gymnax实现了高效的强化学习实验，尤其适合大规模并行和元强化学习研究。

CAGrad - 高效优化多任务学习的梯度冲突

多任务学习梯度下降CAGradNeurIPS强化学习Github开源项目

CAGrad是一种多任务学习算法，专注于解决梯度冲突问题。该方法通过冲突避免策略平衡各任务目标，在图像预测和强化学习领域表现出色。CAGrad实现简洁，适用于复杂的多任务场景，为相关研究提供新思路。该项目已被NeurIPS 2021接收，并提供了完整的源代码和实验指南。

Gymnasium - Python强化学习标准API和环境开源库

Gymnasium强化学习Python库AI环境开源项目Github

Gymnasium是一个用于开发和比较强化学习算法的开源Python库，提供标准API和丰富的环境集。它包括经典控制、Box2D、玩具文本、MuJoCo和Atari等多种环境类型，促进算法与环境的高效交互。作为OpenAI Gym的延续，Gymnasium现由独立团队维护，提供完善的文档和活跃的社区支持。该库采用严格的版本控制以确保实验可重复性，并提供灵活的安装选项满足不同用户需求。

mctx - 高效JAX实现的蒙特卡洛树搜索库

MctxJAX蒙特卡洛树搜索强化学习深度学习Github开源项目

Mctx是一个基于JAX的蒙特卡洛树搜索库，实现了AlphaZero和MuZero等算法。该库支持JIT编译和并行批处理，以提高计算效率。Mctx平衡了性能和易用性，为研究人员提供了探索搜索型强化学习算法的便利工具。它包含通用搜索函数和具体策略实现，用户只需提供学习到的环境模型组件即可使用。

jumanji - JAX驱动的多样化强化学习环境套件加速研究与应用

Jumanji强化学习JAX环境套件开源项目Github

Jumanji是一个基于JAX的强化学习环境套件，提供22个可扩展环境。通过硬件加速，它支持快速迭代和大规模实验。简洁API、丰富环境、主流框架兼容性和示例代码使强化学习研究更易开展，同时促进研究成果向工业应用转化。

DRLX - 强化学习框架优化扩散模型

DRLX扩散模型强化学习分布式训练Stable DiffusionGithub开源项目

DRLX是一个基于强化学习的扩散模型分布式训练库。它与Hugging Face的Diffusers库集成，支持多GPU和多节点训练。DRLX兼容Stable Diffusion等模型，实现DDPO算法训练。该库采用即插即用设计，训练模型可直接用于原始管道。DRLX集成了美学评分奖励模型和PickAPic提示词生成功能，为扩散模型研究提供了全面的工具集。

motif - 利用大语言模型偏好生成奖励函数的强化学习框架

MotifAI强化学习NetHack大语言模型Github开源项目

Motif是一个新型强化学习框架,通过大型语言模型的偏好生成奖励函数。它分为数据集注释、奖励函数训练和强化学习三个阶段。在NetHack游戏中,Motif展现出优秀性能,生成符合人类直觉的行为,并可通过提示词灵活调整。这种方法为开发智能AI代理提供了新的研究方向,具有良好的扩展潜力。

hands-on-rl - 实践驱动的强化学习进阶教程

强化学习课程Python机器学习深度学习Github开源项目

hands-on-rl项目提供一套系统化的强化学习实践教程。该教程涵盖从Q-learning到策略梯度等核心算法，通过递进难度的案例帮助学习者掌握RL技术。内容包括出租车驾驶和登月模拟等实例，并结合深度学习知识。教程提供Python代码实现和详细解释，适合希望深入学习强化学习的研究者和开发者。

OpenRLHF - 高性能强化学习框架助力大规模语言模型优化

OpenRLHFRLHF框架强化学习分布式训练模型微调Github开源项目

OpenRLHF是一款基于Ray、DeepSpeed和Hugging Face Transformers构建的高性能强化学习框架。该框架简单易用，兼容Hugging Face模型和数据集，性能优于优化后的DeepSpeedChat。它支持分布式RLHF，能够在多GPU环境下进行70B+参数模型的全规模微调。OpenRLHF集成了多项PPO实现技巧以提升训练稳定性，同时支持vLLM生成加速和多奖励模型等先进特性，为大规模语言模型优化提供了强大支持。

trl - 用于大型语言模型微调和对齐的开源工具库

TRL微调大语言模型强化学习TransformerGithub开源项目

TRL是一个开源的全栈工具库，专用于大型语言模型的微调和对齐。它支持监督式微调、奖励建模和近端策略优化等方法，适用于多种模型架构。该库基于Transformers构建，提供灵活的训练器和自动模型类，并集成Accelerate、PEFT等工具实现高效扩展。TRL还提供命令行界面，方便用户进行模型微调和交互。

omnisafe - 安全强化学习框架加速AI系统安全研究

SafeRLOmniSafe强化学习安全强化学习算法框架Github开源项目

OmniSafe是一个用于安全强化学习(SafeRL)研究的开源框架。它提供了全面的SafeRL算法基准测试和模块化工具包。该框架采用高度模块化设计,支持高性能并行计算,并提供开箱即用的工具。OmniSafe实现了多种类型的SafeRL算法,包括基于策略、无模型和基于模型等。通过丰富的教程和API,框架适合不同水平的研究人员使用。OmniSafe致力于推动SafeRL领域的发展,为AI系统安全性研究提供重要支持。

HEBO - 华为开源贝叶斯优化与强化学习研究框架

贝叶斯优化强化学习机器学习人工智能Huawei Noah's Ark LabGithub开源项目

HEBO是华为诺亚方舟实验室开发的开源研究框架,聚焦贝叶斯优化和强化学习领域。该框架包含HEBO、MCBO、NAP等多个前沿项目,涉及高维优化、元学习、组合优化等研究方向。HEBO提供创新算法和基准测试,旨在推动相关技术发展。研究人员可利用此框架开发评估新算法,解决实际应用中的复杂优化问题。

Miniworld - 轻量级3D室内环境模拟器强化学习与机器人研究利器

Miniworld强化学习3D环境模拟Python开源项目Github

Miniworld作为轻量级3D室内环境模拟器，为强化学习和机器人研究提供了简单而灵活的平台。它模拟了基本的室内场景，支持高性能多进程运行，资源需求低。虽然图形和物理模拟较为基础，但其易用性和可扩展性使其成为VizDoom或DMLab的有力替代。Miniworld还支持域随机化和深度图生成，适合各类研究需求。

financial-machine-learning - 金融机器学习资源汇总与实践指南

金融机器学习算法交易深度学习强化学习量化交易Github开源项目

这个项目收集了金融机器学习(FinML)领域的精选工具和应用。主要包括Python资源，涵盖深度学习、强化学习和股票预测模型等。此外还提供交易微服务系统和量化机器学习交易等实用内容。项目为金融科技领域的机器学习应用提供了全面的学习和参考资料。

Minigrid - 离散网格世界强化学习环境库支持多样化任务和语言指令

Minigrid强化学习网格世界环境GymnasiumBabyAIGithub开源项目

Minigrid是一个用于强化学习研究的离散网格世界环境库。它采用Gymnasium标准API，具有轻量、快速和易定制的特点。该库包含原始Minigrid和BabyAI两类环境，提供多种目标导向和分层任务，如物品操作、门禁管理和迷宫导航等。BabyAI环境还集成了基于语言的任务指令生成功能，有助于语言学习研究。Minigrid支持通过编程调整环境复杂度，便于实施课程学习和难度优化。

lerobot - 实用机器学习库助力实际机器人开发

LeRobot机器人强化学习模拟环境预训练模型Github开源项目

LeRobot是一个基于PyTorch的机器人应用开发库,提供模型、数据集和工具。它侧重模仿学习和强化学习,包含预训练模型、人类示范数据集和仿真环境,降低机器人技术门槛。该库支持ALOHA、PushT和XArm等多种环境和策略,未来将扩展实际机器人支持。LeRobot旨在促进数据集和预训练模型的共享,推动机器人技术发展。

envpool - 高性能并行强化学习环境执行引擎

EnvPool强化学习环境仿真高性能计算并行处理Github开源项目

EnvPool是一款基于C++的高性能并行强化学习环境引擎。它支持Atari、Mujoco等多种环境，提供同步和异步执行模式，适用于单玩家和多玩家场景。EnvPool易于集成新环境，在高端硬件上可达到每秒100万Atari帧或300万Mujoco步骤的模拟速度，比传统Python子进程方法快约20倍。作为通用解决方案，EnvPool可显著加速各类强化学习环境的并行化执行。

awesome-model-based-RL - 模型化强化学习论文与资源汇总

强化学习模型学习世界模型DreamerMCTSGithub开源项目

本项目汇集了模型化强化学习(Model-Based RL)领域的精选研究论文，持续更新前沿进展。项目提供了将算法分为'学习模型'和'给定模型'两类的分类方法。收录内容包括经典论文、最新会议论文、教程和代码库，涵盖从基础理论到应用的多个主题。这一资源集合为研究人员提供了全面的参考材料，反映了模型化强化学习领域的发展动态。

flashbax - JAX强化学习高效体验回放缓冲库

Flashbax经验回放缓冲区强化学习JAX深度学习Github开源项目

Flashbax是一个为JAX设计的高效体验回放缓冲库,适用于强化学习算法。它提供平坦缓冲、轨迹缓冲及其优先级变体等多种缓冲类型,特点是高效内存使用、易于集成到编译函数中,并支持优先级采样。Flashbax还具有Vault功能,可将大型缓冲区保存到磁盘。这个简单灵活的框架适用于学术研究、工业应用和个人项目中的体验回放处理。

PPO-for-Beginners - PyTorch实现近端策略优化算法详解

PPO强化学习PyTorch神经网络策略优化Github开源项目

该项目提供使用PyTorch从零实现近端策略优化(PPO)算法的教程。代码精简、注释详尽、结构清晰。涵盖PPO算法核心概念、网络实现及完整训练流程。适合想深入理解PPO算法细节的强化学习爱好者。

DI-engine-docs - 全面的决策智能和强化学习开源教育平台

DI-engine决策智能强化学习文档OpenDILabGithub开源项目

DI-engine-docs是一个开源教育平台，提供决策智能和DI-engine的学习资源。平台内容涵盖DI-engine介绍、强化学习概念、算法分类、环境示例和自定义环境迁移教程等。该文档为研究人员和开发者提供全面的学习材料，支持决策智能领域的研究和应用。

awesome-diffusion-model-in-rl - 扩散模型在强化学习领域的最新研究进展汇总

Diffusion Model强化学习轨迹优化离线强化学习机器人操作Github开源项目

本项目汇总了强化学习领域应用扩散模型的最新研究论文，涵盖离线RL、机器人控制、轨迹规划等多个方向。持续追踪并整理扩散强化学习的前沿进展，为研究人员提供全面的参考资源。每篇论文均附有概述、代码链接和实验环境等详细信息，方便读者深入了解。

DI-star - 开源星际争霸II AI训练框架

StarCraft IIAI强化学习监督学习游戏智能Github开源项目

DI-star是一个为星际争霸II设计的开源AI训练框架。它提供预训练模型、对战演示和训练代码，支持监督学习和强化学习。该平台已训练出大师级AI，并支持多种测试模式。DI-star适用于Windows和Linux系统，为研究人员提供了构建和训练自定义AI代理的工具。

rsl_rl - 面向GPU的高效强化学习框架

RSL RL强化学习GPU运行PPO算法开源项目Github

rsl_rl是一个专为GPU运行优化的强化学习框架，目前实现了PPO算法，未来将支持更多算法。框架提供详细的安装指南，集成多种日志工具，并采用严格的代码质量管理。它在Legged-Gym和Orbit等机器人仿真环境中得到应用，为强化学习研究和开发提供了高效工具。

tinyzero - 简易强化学习框架快速训练类AlphaZero智能体

AlphaZero强化学习神经网络蒙特卡洛树搜索环境模拟Github开源项目

tinyzero是一个简易的强化学习框架，用于在任意环境中训练类AlphaZero的智能体。该框架提供简单接口实现新环境、模型和智能体，支持多种游戏类型。tinyzero采用Monte Carlo树搜索和深度学习技术，可在Google Colab上快速部署，适合研究人员和爱好者探索AI在各类任务中的应用。

ml-agents - 用于游戏和模拟环境的开源智能代理训练工具

Unity ML-Agents ToolkitAI强化学习模拟环境游戏开发Github开源项目

Unity ML-Agents Toolkit是一个开源项目，利用游戏和模拟环境训练智能代理。集成了基于PyTorch的先进算法，用户可以轻松训练2D、3D和VR/AR游戏中的智能代理。支持强化学习、模仿学习和神经进化等方法，适用于NPC行为控制、自动化测试和游戏设计评估。该工具包为游戏开发者和AI研究人员提供了一个共享平台，助力在Unity丰富环境中测试AI进展，并惠及广泛的研究和开发社区。

深度神经进化：遗传算法在深度强化学习中的应用与发展

2024年08月30日

Unity ML-Agents: 革新游戏AI开发的开源工具包

2024年08月30日

PaLM-rlhf-pytorch:基于PaLM架构实现的RLHF模型

2024年08月30日

TensorLayer: 强大灵活的深度学习和强化学习库

2024年08月30日

Practical_RL: 一门实用的强化学习课程

2024年08月30日

AlphaZero通用框架:一种强大的自学习AI算法

2024年08月30日

TensorHouse: 企业级AI/ML应用的开源工具箱

2024年08月30日

Transformers学习指南：从入门到精通

投诉举报邮箱: service@vectorlightyear.com