#强化学习

Practical_RL - 强化学习开源课程：实用技巧与实践

Github开源项目强化学习Google ColabPractical_RLHSEYSDA

Practical_RL是一个专注于强化学习实用性的开源课程，提供HSE和YSDA的课堂教学及线上学习支持，涵盖英语和俄语材料。课程从基础理论到实践应用，包括价值迭代、Q学习、深度学习、探索策略、策略梯度方法、序列模型及部分观察MDP等内容。学生可以通过GitHub改进课程，使用Google Colab或本地环境进行实践。适合希望在实际问题中应用强化学习的学生和研究者。

TensorLayer - 高性能且灵活的深度学习和强化学习工具库

Github开源项目深度学习TensorFlow开源软件强化学习TensorLayer

TensorLayer 是一个基于 TensorFlow 的深度学习和强化学习库，为研究人员和工程师提供多种可定制的神经网络层，简化复杂 AI 模型的构建。它设计独特，结合了高性能与灵活性，支持多种后端和硬件，并提供丰富的教程和应用实例。广泛应用于全球知名大学和企业，如谷歌、微软、阿里巴巴等。

dopamine - 用于快速原型设计的强化学习研究框架

Github开源项目强化学习JAXDopamineDQNTensorflow

Dopamine是一个用于快速原型设计强化学习算法的研究框架，旨在便于用户进行自由实验。其设计原则包括易于实验、灵活开发、紧凑可靠和结果可重复。支持的算法有DQN、C51、Rainbow、IQN和SAC，主要实现于jax。Dopamine提供了Docker容器及源码安装方法，适用于Atari和Mujoco环境，并推荐使用虚拟环境。更多信息请参阅官方文档。

PaLM-rlhf-pytorch - 结合PaLM架构的RLHF创新实现

人工智能Github开源项目强化学习RLHFPaLM人类反馈

本项目实现了基于PaLM架构的强化学习与人类反馈（RLHF），适用于开放环境下的ChatGPT复现。结合了LoRA微调和Flash Attention技术，提供详细的安装和使用指南。加入社区，探索最新的PPO和RL技术进展。

neurojs - 一个基于浏览器的JavaScript深度学习框架，聚焦强化学习

Github开源项目深度学习强化学习neurojsJavaScript框架深度Q网络

neurojs是一个浏览器内的JavaScript深度学习框架，特别专注于强化学习任务。它提供全栈神经网络支持、强化学习扩展以及网络配置的二进制导入和导出功能。用户可以通过2D自驾车等演示直观了解其功能。尽管该项目已停止维护，但仍可作为学习和实验工具，建议使用更通用的框架如TensorFlow-JS。

deep-neuroevolution - 深度神经网络进化算法的分布式实现

Github开源项目OpenAI强化学习Deep NeuroevolutionGenetic AlgorithmsMujoco

本项目提供分布式深度神经网络训练的多种实现，包括深度遗传算法(DeepGA)和进化策略(ES)，用于强化学习。基于并改进了OpenAI的代码，支持本地和AWS运行。项目还包括NeuroEvolution的视觉检测工具VINE和GPU优化加速。用户可通过Docker容器快速启动实验，并使用Mujoco进行高级实验。

lab - 提升人工智能研究的3D环境测试场

人工智能Github开源项目DeepMind Lab强化学习Bazelioquake3热门

DeepMind Lab是一个基于id Software的Quake III Arena开发的3D学习环境，通过ioquake3和其他开源软件支持。本平台提供了一系列挑战性的3D导航和解谜任务，主要用于深度强化学习等人工智能领域的研究。构建于多个层次的任务和Lua脚本配置，DeepMind Lab支持广泛的研究应用和技术评估。适合学术研究者和技术开发者使用，可以通过专门文档获得更多构建和使用信息。

alpha-zero-general - 通用自学强化学习平台，支持多种游戏和深度学习框架

Github开源项目深度学习强化学习Alpha ZeroOthello蒙特卡洛树搜索

该项目基于AlphaGo Zero论文，提供了简化和灵活的自学强化学习实现，适用于各种双人回合制对抗游戏和深度学习框架。用户可通过实现Game.py和NeuralNet.py中的类，为所选游戏自定义实现。项目提供了Othello、五子棋和井字棋等游戏示例，支持PyTorch和Keras框架，并包含核心训练循环、蒙特卡洛树搜索和神经网络参数设置的详细说明，此外还提供预训练模型和Docker环境设置。

tensor-house - 企业AI/ML项目的全面参考工具包

Github开源项目深度学习企业解决方案强化学习TensorHouseAI/ML应用

为企业提供营销、定价、供应链和智能制造领域的AI/ML应用参考工具包，包括Jupyter笔记本、原型应用、数据集和评估问卷，帮助快速评估项目准备度，进行数据分析和构建模型原型，适用于深度学习、强化学习和因果推断方法。

rl-baselines3-zoo - Stable Baselines3 强化学习代理的训练框架，包括超参数优化和预训练代理

Github开源项目强化学习超参数调整RL Baselines3 ZooStable Baselines3训练框架

RL Baselines3 Zoo提供一个灵活的训练框架支持众多增强学习算法和环境。此框架便于进行算法基准测试、调优以及AI模型的训练和评估。已集成200多个预训练智能体，并配备全面的文档和安装指南，适合科研和开发使用。

rl-baselines-zoo - 一站式强化学习训练与优化集成环境

Github开源项目强化学习训练代理Stable-Baselines3RL Baselines Zoo超参数调优

RL Baselines Zoo提供一个多元化的强化学习代理集合，支持用户通过简易界面进行代理训练和算法评测。项目含多个环境和算法，带有经过优化的默认超参数，适用于教育和研究用途。注意：此库已停止维护，建议使用更新的RL-Baselines3 Zoo版本。

rex-gym - 开源四足机器人的强化学习与实时模拟训练

Github开源项目强化学习RexOpenAI Gym控制策略四足机器人

rex-gym是一个开源项目，致力于通过强化学习和OpenAI Gym环境训练3D打印四足机器人，实现模拟训练到真实执行的无缝迁移。支持命令行操作、多种训练模式和地形模拟，旨在测试并提升控制策略的适应性。rex-gym不仅适用于教育和研发领域，其丰富的仿真环境和控制策略在实际应用中也已展示出显著的适应性和效果。

Deep-Learning-Papers-Reading-Roadmap - 深度学习论文阅读路线图，覆盖从基础到前沿技术的多个阶段

Github开源项目深度学习卷积神经网络自然语言处理强化学习递归神经网络

该项目提供了一条有序的深度学习论文阅读路径，覆盖从基础到前沿技术的多个阶段。涵盖图像识别到语音识别等多个领域的关键论文，并提供直观的阅读指导和详细分类，以助力读者全面理解深度学习。适用于学术研究者和行业开发者。

Transformers-Recipe - 学习与应用Transformer的指南

Github开源项目计算机视觉强化学习TransformerNLPAttention

该指南为自然语言处理（NLP）及其他领域的学习者提供了丰富的Transformer学习资源，包括基础介绍、技术解析、实际实现和应用。通过精选的文章、视频和代码示例，帮助用户深入掌握Transformer模型的理论与实践。

rlcard - 增强学习在纸牌游戏中的应用工具包

Github开源项目强化学习算法RLCard卡牌游戏开源工具

RLCard是一个开源的纸牌游戏增强学习工具包，支持多种卡牌环境，并易于接入不同的强化学习和搜索算法，致力于推动非完美信息游戏的研发进展。本项目由DATA Lab（Rice及德克萨斯A&M大学）与全球开发者共同维护。

deep-learning-roadmap - 为开发者和研究人员提供的从入门到高级应用全覆盖，涵盖图像识别、自然语言处理等关键领域深度学习的综合资源，

Github开源项目深度学习卷积神经网络强化学习图像识别生成模型

为开发者和研究人员提供深度学习的综合资源，从入门到高级应用全覆盖，涵盖图像识别、自然语言处理等关键领域。借助本平台，您可以迅速找到所需资源，掌握最前沿的深度学习技术。

MedicalGPT - 优化医疗GPT模型，提升医疗对话系统的响应与精确性

Github开源项目微调强化学习医疗大模型MedicalGPT医患对话

MedicalGPT项目采用多阶段方法如增量预训练、精细微调及奖励建模强化学习，优化医疗GPT模型，增强医疗对话与问答系统的性能。模型以人类反馈为基础，通过直接偏好优化和强化学习策略，调整生成对话的质量与人类偏好的契合度，提供科学准确的医疗咨询，项目持续接入先进的医疗语言处理技术，应对医疗领域的需求变化。

openrl - 综合性强化学习平台，支持多任务训练

Github开源项目PyTorch自然语言处理强化学习多智能体OpenRL

OpenRL 是一款基于 PyTorch 的开源强化学习研究框架，支持单代理、多代理、离线强化学习、自我对弈及自然语言处理任务。框架提供统一接口、训练加速方法和多种深度学习模型支持，兼容 Gymnasium、MuJoCo、StarCraft II 等多种环境。同时，OpenRL 还支持用户自定义训练模型、奖励模型和环境配置，并提供中英文文档。

stable-baselines3 - 增强型PyTorch强化学习算法，实现可靠性与自定义支持

Github开源项目PyTorch强化学习Stable Baselines3RL算法稳定基线

实现可靠的PyTorch强化学习算法，方便研究和工业用户复制和优化新思路。支持自定义环境与策略，提供统一接口，适合项目开发和性能对比。涵盖A2C、PPO、DQN等算法，包含迁移指南和在线文档，适用于有强化学习基础的用户。

pytorch-rl - Pytorch中的深度强化学习算法实现

Github开源项目深度学习强化学习PytorchOpenAI Gym机器人任务

pytorch-rl项目在Pytorch中实现了多种深度强化学习算法，适用于连续动作空间。用户可以在CPU或GPU上高效训练这些算法，并与OpenAI Gym无缝集成。支持的算法包括DQN、DDPG、PPO等，涵盖环境建模和参数空间噪声探索等功能。

genrl - 强化学习算法库，提供快速基准测试和示例教程

Github开源项目PyTorch强化学习基准测试GenRL算法实现

GenRL是一个基于PyTorch的强化学习库，提供可重现的算法实现和通用接口。它包含20多个从基础到高级的强化学习教程，并支持模块化和可扩展的Python编程。统一的训练和日志记录功能提高了代码复用性，同时自动超参数调整功能加速了基准测试。GenRL旨在支持新算法的实现，代码少于100行。适用于Python 3.6及以上版本，依赖于PyTorch和OpenAI Gym。

openai_lab - 提升强化学习效率的实验框架，兼容OpenAI Gym、Tensorflow和Keras

Github开源项目强化学习KerasTensorflowOpenAI GymOpenAI Lab

OpenAI Lab提供统一的强化学习环境和代理接口，内置主要强化学习算法。用户可轻松进行大量超参数优化实验，自动生成日志、图表和分析报告。实验设置采用标准化JSON格式，确保实验可重复且易于比较。支持自动分析实验结果，帮助选择最佳解决方案，专注于强化学习的关键研究，如算法、策略、记忆和参数调优。

gym-electric-motor - 电机仿真与控制的Python开源工具箱

Github开源项目Python强化学习gym-electric-motor电动机仿真驱动系统

Gym Electric Motor (GEM) 是一个用于电机仿真与控制的Python开源工具箱，支持传统控制和强化学习实验。它能构建典型的传动系统，进行闭环仿真并提供各种决策算法接口。适用于工业和学术领域的工程师，涵盖从线性反馈控制到深度确定性策略梯度等多种应用。通过简单的安装步骤和丰富的示例文档，用户可以快速开始使用并进行深入研究。

rl-plotter - 绘制强化学习训练曲线的工具

Github开源项目数据可视化强化学习rl-plotter学习曲线日志记录器

rl-plotter 是一个简单的工具，可以轻松绘制强化学习训练曲线。支持自定义记录器、多实验绘图和多种绘图样式，兼容 OpenAI-baseline 和 OpenAI-spinningup。用户可以通过命令行方式绘制结果，并对图表进行个性化设置，如平均分组和阴影标准偏差。适用于研究人员和开发者追踪和可视化强化学习训练过程，提升工作效率和结果质量。

gym-sokoban - 推箱子游戏的深度强化学习挑战

Github开源项目强化学习DeepMindAI游戏gym-sokoban推箱子

该项目实现了经典视频游戏推箱子，旨在为深度强化学习算法提供训练环境。游戏中的房间生成是随机的，有助于避免神经网络过拟合预定义场景。玩家需要将所有箱子推到目标位置，不可逆的错误增加了游戏的挑战性。项目支持多种渲染模式和尺寸配置，适用于不同研究和训练需求。可通过PIP或从仓库安装，并提供多种游戏变体，如固定目标、多玩家和箱子拉动功能。

gym-ignition - 增强机器人环境创建的可复现性框架

Github开源项目强化学习gym-ignition机器人学环境仿真ScenarIO

此项目提供了一个基于ScenarIO的框架，用于创建可复现的机器人环境，适用于强化学习研究。通过提供Task和Runtime抽象层，开发者能更专注于决策逻辑的开发，而无需担心底层代码的实现。框架还包含简化领域随机化实现的randomizers，并支持固定和浮动基机器人。项目主要目标是简化和优化环境开发，同时包括一些示例环境供参考。详情及安装教程请访问官方网页。

transformers_tasks - 多种集成NLP任务的高效开源工具

Github开源项目强化学习NLP信息抽取文本匹配huggingface transformers

transformers_tasks提供了多种NLP任务的实现，基于Huggingface transformers库，用户可以便捷加载及训练模型，并根据自己数据集进行微调。包括文本匹配、信息抽取、Prompt任务等多种功能，适用于Python 3.6+和多种操作系统，满足不同NLP应用需求。

Contra-PPO-pytorch - Contra NES游戏中的Proximal Policy Optimization算法实现与训练方法

Github开源项目强化学习AI训练PPOPython代码Contra Nes

本项目利用Proximal Policy Optimization (PPO)算法，通过Python代码训练AI智能体进行Contra NES游戏。PPO算法由OpenAI提出，其早期版本曾用于训练OpenAI Five在电竞中取得胜利。项目提供了详细的训练指南、示例代码，并支持Docker环境，方便进行模型的训练和测试。本项目展示了PPO算法在游戏AI中的实际应用效果。

Gym.NET - OpenAI Gym的C#移植版，适用于强化学习环境

Github开源项目强化学习C#工具包OpenAI GymGym.NET

Gym.NET是OpenAI Gym的C#移植版本，提供标准化的强化学习开发环境。用户可通过NuGet安装Gym.NET及其多种环境和渲染模块，支持例如CartPole-v1等经典环境的运行和渲染。项目目标是逐步实现多种OpenAI Gym环境，包括经典、Mujoco、Box2D和Atari等。详细的安装步骤和示例代码请参考项目的GitHub页面。

irl-imitation - 逆强化学习算法在Python和Tensorflow中的实现

Github开源项目PythonTensorFlow强化学习算法实现Inverse Reinforcement Learning

该项目实现了多种逆强化学习（IRL）算法，包括线性逆强化学习、最大熵逆强化学习和深度最大熵逆强化学习，基于Python和Tensorflow。支持在2D和1D网格世界中的应用。项目依赖于Python 2.7、cvxopt、Tensorflow 0.12.1和matplotlib，通过代码示例和命令行选项，有助于快速理解和使用这些算法。为逆强化学习领域的研究者提供了重要的参考资源。

ravens - PyBullet仿真中的视觉机器人操纵任务集合

Github开源项目强化学习RavensTransporter Networks机器人操作PyBullet

Ravens项目提供了一系列在PyBullet中模拟的任务，专注于学习基于视觉的机器人抓取与放置操作。项目包含一个类似Gym的API和10个桌面排布任务，每个任务包括专家演示脚本和奖励函数，用于模仿学习和强化学习。该项目展示了Transporter Network的效率，通过重新排列深度特征来推断视觉输入的空间位移，从堆叠积木到处理变形绳索，学习速度和推广能力均优于基准方法。

TextRL - 通过强化学习提高文本生成质量，广泛支持多种模型

Github开源项目文本生成强化学习TextRLHugging Face's TransformersOpenAI GYM

TextRL是一个Python库，结合Hugging Face的Transformers、PFRL和OpenAI GYM，通过强化学习优化文本生成。该库支持多种文本生成模型，如GPT-2、FLAN-T5和Bigscience/BLOOM，并具备高度的可定制性，适用于各种应用场景，从而提升文本生成的准确性和表现力。

UAV-DDPG - UAV辅助移动边缘计算的深度确定性策略梯度任务优化

Github开源项目强化学习算法优化UAV-DDPG无人机边缘计算

本研究提出了一种基于深度确定性策略梯度(DDPG)的算法，用于优化UAV辅助的移动边缘计算(MEC)系统中的任务卸载。通过优化用户调度、任务卸载比例、UAV飞行角度和速度，旨在最小化最大处理延迟。实验结果表明，与传统算法相比，该DDPG算法显著降低了处理延迟。

maro - 跨领域资源优化的多代理系统

Github开源项目强化学习MARO资源优化运筹学虚拟机调度

MARO是一个多代理资源优化平台，适用于物流中的集装箱管理、交通中的自行车调度、数据中心的虚拟机管理和金融中的资产管理。该平台包含仿真、强化学习和分布式工具包，支持多种决策机制。用户可通过PyPI或源码安装，并使用Jupyter lab和Redis GUI进行环境可视化和快速体验。MARO是由微软开源的项目，用户可贡献代码并遵从贡献者许可协议（CLA）。

rllte - 强化学习研究和应用的长期演进项目

Github开源项目强化学习工具包算法实现RLLTE生态系统

RLLTE项目受到电信长期演进标准的启发，旨在为强化学习研究与应用提供开发组件和标准。项目不仅提供高质量的算法实现，还作为开发算法的实用工具包。RLLTE支持模块化设计、优化硬件加速、兼容多种计算设备和自定义环境，且包含大量可重复使用的基准。

ml-agents - 用于游戏和模拟环境的开源智能代理训练工具

Github开源项目AI强化学习Unity ML-Agents Toolkit模拟环境游戏开发

Unity ML-Agents Toolkit是一个开源项目，利用游戏和模拟环境训练智能代理。集成了基于PyTorch的先进算法，用户可以轻松训练2D、3D和VR/AR游戏中的智能代理。支持强化学习、模仿学习和神经进化等方法，适用于NPC行为控制、自动化测试和游戏设计评估。该工具包为游戏开发者和AI研究人员提供了一个共享平台，助力在Unity丰富环境中测试AI进展，并惠及广泛的研究和开发社区。

相关文章

Article Cover

OpenRL学习资料汇总 - 统一的强化学习框架

Article Cover

rl-baselines-zoo学习资料汇总 - 强化学习预训练模型集合与训练框架

Article Cover

MedicalGPT入门指南-基于ChatGPT训练Pipeline的医疗大模型训练框架

Article Cover

深度学习学习路线图 - 入门指南与资源汇总

Article Cover

Deep-Learning-Papers-Reading-Roadmap深度学习论文阅读路线图 - 入门学习资料汇总

Article Cover

RLCard入门指南 - 强化学习卡牌游戏工具包

Article Cover

Transformers-Recipe学习资料汇总 - 自然语言处理的革命性架构

Article Cover

TensorHouse学习资料汇总 - 企业级AI/ML应用的参考实现和演示集合

Article Cover

Alpha Zero General学习资料汇总 - 适用于任何游戏的通用强化学习框架

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号