#强化学习

Popular-RL-Algorithms - 流行强化学习算法的PyTorch实现与评估

强化学习PyTorch算法实现开源代码性能对比Github开源项目

Popular-RL-Algorithms项目实现了SAC、DDPG、TD3、PPO等多种流行强化学习算法的PyTorch版本。项目提供了算法的多种实现以便比较,并包含奖励归一化、多进程训练等实用技巧。通过在OpenAI Gym环境中的性能展示,为强化学习研究和应用提供了参考。

sample-factory - 高效强化学习框架实现快速训练和卓越性能

Sample Factory强化学习PPO算法高吞吐量环境集成Github开源项目

Sample Factory是一个高效的强化学习库，专注于同步和异步策略梯度实现。它提供优化的算法架构、灵活的训练模式和多种环境支持，包括多智能体训练和PBT等功能。该库在VizDoom、IsaacGym和DMLab-30等多个领域展现出优秀性能，同时减少训练时间和硬件需求。Sample Factory支持导入其他项目，并允许自定义环境和模型架构。

hok_env - 腾讯王者荣耀AI环境提供多智能体强化学习新挑战

王者荣耀AI强化学习MOBA开放环境Github开源项目

腾讯开发的Honor of Kings AI开放环境基于王者荣耀游戏,为多智能体强化学习提供新的泛化挑战。环境支持多样化英雄和对手,详细定义了观察空间、动作空间和奖励设计,并提供与游戏引擎交互的Python接口。目前支持1v1和3v3模式,可使用20个英雄进行训练。项目还包含基线算法实现和泛化挑战分析,为AI研究提供了新的基准测试平台。

walk-these-ways - 四足机器人Go1自主行走控制器训练与部署工具包

Go1机器人控制强化学习Isaac GymUnitreeGithub开源项目

这是一个开源工具包,用于训练和部署四足机器人Go1的自主行走控制器。工具包基于Isaac Gym模拟器进行强化学习训练,支持多样性行为(MoB)方法以提高控制器泛化能力,并提供将训练策略部署到实体机器人的功能。包含完整的训练、评估和部署流程,以及详细的使用指南。

GoBigger - 基于Agar规则的多智能体决策模拟环境

GoBigger多智能体游戏环境强化学习合作竞争Github开源项目

GoBigger是一个基于Agar游戏规则的多智能体决策模拟环境。该环境支持多队伍、多智能体的合作竞争策略研究，具有可扩展性、复杂的观察空间和丰富的动作空间。GoBigger模拟了团队合作和小范围内的激烈竞争，为游戏AI开发和多智能体系统研究提供了实验平台。

MultiHopKG - 多跳知识图谱推理的强化学习框架

知识图谱推理强化学习奖励塑造多跳推理EMNLPGithub开源项目

MultiHopKG是一个多跳知识图谱推理框架,采用强化学习方法优化推理路径。该项目通过奖励塑造技术提高了复杂查询的准确性,支持UMLS、Kinship、FB15k-237等多个知识图谱数据集。框架提供Docker环境和脚本,方便进行数据处理、模型训练和评估。MultiHopKG为知识图谱推理研究提供了实用的开源工具。

Grid2Op - 模块化电力系统仿真与强化学习平台

Grid2Op电网操作强化学习模块化设计电力系统Github开源项目

Grid2Op是一个模块化电力系统仿真平台,支持发电调度、负荷管理、维护操作和拓扑重构等多种电网控制。平台提供兼容OpenAI Gym的强化学习接口,支持自定义参数和规则,可适配多种数据格式。Grid2Op内置交直流潮流计算功能,并支持更换求解器,为电力系统建模和强化学习研究提供灵活高效的仿真环境。

LearningHumanoidWalking - 强化学习驱动的人形机器人双足行走算法

人形机器人双足行走强化学习MuJoCoPyTorchGithub开源项目

LearningHumanoidWalking开源项目探索了基于强化学习的人形机器人双足行走控制。该项目利用PPO算法训练机器人在预设足迹上行走，实现了包括上下楼梯和弯道行走在内的复杂任务。项目提供了完整的代码实现，涵盖环境设置、奖励函数和网络结构等，为相关研究提供了可复现的实验基础。通过MuJoCo物理引擎仿真，该算法在多种复杂地形中展现了良好性能。

rl_games - 强化学习框架支持多环境及算法的高性能实现

RL Games强化学习GPU加速机器人学习多智能体训练Github开源项目

rl_games是一个高性能强化学习库，实现了PPO、A2C等算法，支持NVIDIA Isaac Gym、Brax等环境的GPU加速训练。该库具备异步actor-critic、多智能体训练、自对弈等功能，可在多GPU上并行。rl_games提供Colab notebook示例便于快速上手，在多个基准测试中表现出色。作为一个功能丰富的强化学习工具，rl_games兼具高性能和易用性。

neuron_poker - OpenAI Gym德州扑克训练环境开发强大AI玩家

Neuron Poker德州扑克OpenAI GymAI智能体强化学习Github开源项目

Neuron Poker是基于OpenAI Gym的德州扑克AI训练环境。项目提供多种智能代理模型，包括随机策略、equity策略和深度强化学习。通过C++实现的快速equity计算和详细的观察行动空间，开发者可以自定义模型并协作改进，推动扑克AI技术进步。

tmrl - 实时机器人控制与自动驾驶AI的分布式强化学习框架

TMRL强化学习自动驾驶TrackMania 2020Gymnasium环境Github开源项目

TMRL是一个面向机器人学习的分布式强化学习框架，专注于实时应用中的深度强化学习AI训练。该框架以TrackMania 2020游戏为例，展示了基于原始截图的自动驾驶控制。TMRL具备安全远程训练、灵活定制和实时环境兼容性等特点，采用单服务器多客户端架构，可在多个节点收集样本并在高性能集群上进行训练。

rl4co - 统一框架助力组合优化问题的强化学习解决方案

RL4CO强化学习组合优化PyTorch开源框架Github开源项目

RL4CO是一个专注于组合优化问题的开源强化学习框架。基于PyTorch构建，它整合了TorchRL和TensorDict等技术，提供统一接口和灵活实现。框架支持构造型和改进型策略，适配多种环境和模型。其模块化设计和丰富工具集有助于研究人员高效开发和评估新算法，为组合优化研究提供了全面的实验平台。

accel-brain-code - 深度学习和机器学习算法库集合

深度学习机器学习强化学习自动编码器生成对抗网络Github开源项目

accel-brain-code是一个开源项目，集成了多个深度学习和机器学习算法库。它包括自动编码器、生成对抗网络、深度强化学习等模块，旨在通过概念验证和研发创建原型。该项目探索了AI民主化后的机器学习研发可能性，为快速开发复杂AI系统提供了基础。其功能涵盖自动摘要、强化学习、生成对抗网络等多个领域。

Reinforcement-Learning-Papers - 强化学习顶会论文精选资源库

强化学习多智能体论文集研究趋势算法Github开源项目

这是一个汇集AAAI、IJCAI、NeurIPS等顶级会议强化学习论文的资源库。涵盖多智能体、元学习、分层学习等前沿方向,提供PDF和代码链接。项目定期更新,为研究人员追踪领域发展、探索新算法提供便捷参考。

simglucose - Python实现的1型糖尿病模拟器助力强化学习研究

simglucose糖尿病模拟器强化学习OpenAI Gym血糖控制Github开源项目

simglucose 是一个基于 FDA 批准的 UVa/Padova Simulator 实现的开源 1 型糖尿病模拟器。它包含 30 个虚拟患者模型，兼容 OpenAI Gym 和 rllab API，支持自定义奖励函数和控制器。该项目支持并行计算，能生成多种性能分析图表。研究人员可利用 simglucose 开发和测试糖尿病管理的强化学习算法，为相关研究提供了便利。

PPOxFamily - PPO算法在决策智能领域的应用实践

PPO强化学习决策智能深度学习智能体Github开源项目

PPOxFamily是一个深度强化学习入门课程，聚焦PPO算法在决策智能领域的应用。课程通过视频讲解、理论资料和代码示例，系统阐述PPO算法原理及其在复杂动作空间、多模态观察、稀疏奖励、时序建模和多智能体等问题上的应用。内容涵盖理论讲解、补充材料、习题及解答，以及详细的代码实现，为学习者提供全面的学习资源。

reinforcement_learning_course_materials - 强化学习完整开源课程资料包括讲义练习和视频

强化学习课程材料Python教学视频练习题Github开源项目

这个项目提供了全面的强化学习课程资料，包含讲义、练习题及答案和教学视频。内容覆盖从基础到高级的强化学习知识，如马尔可夫决策过程、动态规划、蒙特卡洛方法和时序差分学习等。每个主题配有详细讲解和Python代码实现。所有资料均为开源，适合自学者和教育工作者使用。该资源为强化学习的学习和教学提供了实用全面的材料支持。

ReinforcementLearning.jl - 高性能Julia强化学习框架

ReinforcementLearning.jl强化学习Julia开源项目机器学习Github

ReinforcementLearning.jl是Julia语言开发的强化学习框架,提供精心设计的组件和接口。研究人员可轻松实现新算法、进行基准测试和算法比较。框架支持从传统表格方法到深度强化学习,注重实验可重复性。其核心设计原则包括可重用性、可扩展性和易用性,适合各类强化学习实验和研究。

gym-mtsim - MetaTrader 5交易模拟与强化学习环境集成库

MetaTrader 5OpenAI Gym交易模拟强化学习回测Github开源项目

gym-mtsim是一个整合MetaTrader 5交易模拟器和OpenAI Gym强化学习环境的Python库。它支持多资产交易模拟、回测可视化及强化学习环境构建。该项目提供通用、易用且可读性强的工具,涵盖完整交易流程。适合各层次用户使用,可进行交易策略开发和测试。

q-transformer - 自回归Q函数实现离线强化学习

Q-Transformer强化学习AI模型神经网络机器人控制Github开源项目

Q-transformer项目是Google Deepmind提出的可扩展离线强化学习方法的开源实现。该项目通过自回归Q函数优化多动作选择，支持单一和多动作学习，并提供深度对偶架构和n步Q学习。它包含环境交互、数据集创建和学习流程，适用于复杂机器人控制任务。Q-transformer的创新性和灵活性为强化学习研究和应用提供了重要工具。

awesome-LLM-game-agent-papers - 大型语言模型驱动的游戏智能体研究最新进展

LLM游戏智能体人工智能自然语言处理强化学习Github开源项目

这个项目是关于大型语言模型(LLM)在游戏智能体研究中应用的论文集。内容涵盖文字冒险、Minecraft、社会模拟等多种游戏类型,展示LLM在游戏规划、决策和交互方面的能力。项目定期更新,为研究人员提供LLM游戏智能体领域的综合资源,助力了解该领域的前沿进展。

sumo-rl - 用于智能交通信号控制的强化学习框架

SUMO-RL强化学习交通信号控制多智能体交通仿真Github开源项目

SUMO-RL是基于SUMO交通模拟器的强化学习框架，专注于智能交通信号控制。该框架提供简洁接口，支持创建单代理和多代理强化学习环境，允许自定义状态和奖励函数，并兼容主流RL库。SUMO-RL简化了交通信号控制的强化学习研究过程，适用于多种交通网络和场景。目前已应用于多项研究，覆盖从单一交叉口到大规模城市网络的各类交通控制问题。

Reinforcement-Learning-Papers - 强化学习前沿论文收录与汇总

强化学习论文集模型无关模型相关离线学习Github开源项目

该项目全面收录强化学习领域最新论文,聚焦单智能体强化学习研究。内容涵盖模型无关、基于模型、离线、元学习等多个分支,并收录ICLR、ICML、NeurIPS等顶级会议论文。项目对每篇论文进行简要概括,为研究人员提供强化学习前沿进展参考。

Xwin-LM-7B-V0.2 - 优化大语言模型对齐技术，显著提升性能

AlpacaEvalXwin-LM对齐技术大语言模型强化学习HuggingfaceGithub开源项目模型

Xwin-LM项目开发并开源大语言模型对齐技术，涵盖监督微调、奖励模型等多种方法。基于Llama2构建的版本在AlpacaEval评测中表现卓越，超过GPT-4。最新的Xwin-LM-7B-V0.2和13B-V0.2在与GPT-4的比较中分别达到59.83%和70.36%胜率。项目不断更新以提高模型的稳定性和可重复性。

Starling-LM-7B-beta - Starling-LM-7B-beta提升语言模型生成质量与安全性

Openchat-3.5-0106强化学习自然语言处理Huggingface奖励模型Github开源项目模型Starling-LM-7B-beta

Starling-LM-7B-beta是一款基于AI反馈优化并从Openchat-3.5-0106微调的大型语言模型。通过升级后的奖励模型和策略优化，增强了语言生成质量和安全性，并在GPT-4评测中取得了8.12的高分。适用于多种对话场景，用户可在LMSYS Chatbot Arena免费测试，非常适合关注交互体验的开发者和研究人员。

相关文章

Article Cover

深度神经进化：遗传算法在深度强化学习中的应用与发展

Article Cover

Unity ML-Agents: 革新游戏AI开发的开源工具包

Article Cover

PaLM-rlhf-pytorch:基于PaLM架构实现的RLHF模型

Article Cover

TensorLayer: 强大灵活的深度学习和强化学习库

Article Cover

Practical_RL: 一门实用的强化学习课程

Article Cover

AlphaZero通用框架:一种强大的自学习AI算法

Article Cover

TensorHouse: 企业级AI/ML应用的开源工具箱

Article Cover

Transformers学习指南：从入门到精通

Article Cover

多巴胺:大脑中的快乐物质

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号