#强化学习

Popular-RL-Algorithms - 流行强化学习算法的PyTorch实现与评估
强化学习PyTorch算法实现开源代码性能对比Github开源项目
Popular-RL-Algorithms项目实现了SAC、DDPG、TD3、PPO等多种流行强化学习算法的PyTorch版本。项目提供了算法的多种实现以便比较,并包含奖励归一化、多进程训练等实用技巧。通过在OpenAI Gym环境中的性能展示,为强化学习研究和应用提供了参考。
sample-factory - 高效强化学习框架实现快速训练和卓越性能
Sample Factory强化学习PPO算法高吞吐量环境集成Github开源项目
Sample Factory是一个高效的强化学习库,专注于同步和异步策略梯度实现。它提供优化的算法架构、灵活的训练模式和多种环境支持,包括多智能体训练和PBT等功能。该库在VizDoom、IsaacGym和DMLab-30等多个领域展现出优秀性能,同时减少训练时间和硬件需求。Sample Factory支持导入其他项目,并允许自定义环境和模型架构。
hok_env - 腾讯王者荣耀AI环境提供多智能体强化学习新挑战
王者荣耀AI强化学习MOBA开放环境Github开源项目
腾讯开发的Honor of Kings AI开放环境基于王者荣耀游戏,为多智能体强化学习提供新的泛化挑战。环境支持多样化英雄和对手,详细定义了观察空间、动作空间和奖励设计,并提供与游戏引擎交互的Python接口。目前支持1v1和3v3模式,可使用20个英雄进行训练。项目还包含基线算法实现和泛化挑战分析,为AI研究提供了新的基准测试平台。
walk-these-ways - 四足机器人Go1自主行走控制器训练与部署工具包
Go1机器人控制强化学习Isaac GymUnitreeGithub开源项目
这是一个开源工具包,用于训练和部署四足机器人Go1的自主行走控制器。工具包基于Isaac Gym模拟器进行强化学习训练,支持多样性行为(MoB)方法以提高控制器泛化能力,并提供将训练策略部署到实体机器人的功能。包含完整的训练、评估和部署流程,以及详细的使用指南。
GoBigger - 基于Agar规则的多智能体决策模拟环境
GoBigger多智能体游戏环境强化学习合作竞争Github开源项目
GoBigger是一个基于Agar游戏规则的多智能体决策模拟环境。该环境支持多队伍、多智能体的合作竞争策略研究,具有可扩展性、复杂的观察空间和丰富的动作空间。GoBigger模拟了团队合作和小范围内的激烈竞争,为游戏AI开发和多智能体系统研究提供了实验平台。
MultiHopKG - 多跳知识图谱推理的强化学习框架
知识图谱推理强化学习奖励塑造多跳推理EMNLPGithub开源项目
MultiHopKG是一个多跳知识图谱推理框架,采用强化学习方法优化推理路径。该项目通过奖励塑造技术提高了复杂查询的准确性,支持UMLS、Kinship、FB15k-237等多个知识图谱数据集。框架提供Docker环境和脚本,方便进行数据处理、模型训练和评估。MultiHopKG为知识图谱推理研究提供了实用的开源工具。
Grid2Op - 模块化电力系统仿真与强化学习平台
Grid2Op电网操作强化学习模块化设计电力系统Github开源项目
Grid2Op是一个模块化电力系统仿真平台,支持发电调度、负荷管理、维护操作和拓扑重构等多种电网控制。平台提供兼容OpenAI Gym的强化学习接口,支持自定义参数和规则,可适配多种数据格式。Grid2Op内置交直流潮流计算功能,并支持更换求解器,为电力系统建模和强化学习研究提供灵活高效的仿真环境。
LearningHumanoidWalking - 强化学习驱动的人形机器人双足行走算法
人形机器人双足行走强化学习MuJoCoPyTorchGithub开源项目
LearningHumanoidWalking开源项目探索了基于强化学习的人形机器人双足行走控制。该项目利用PPO算法训练机器人在预设足迹上行走,实现了包括上下楼梯和弯道行走在内的复杂任务。项目提供了完整的代码实现,涵盖环境设置、奖励函数和网络结构等,为相关研究提供了可复现的实验基础。通过MuJoCo物理引擎仿真,该算法在多种复杂地形中展现了良好性能。
rl_games - 强化学习框架支持多环境及算法的高性能实现
RL Games强化学习GPU加速机器人学习多智能体训练Github开源项目
rl_games是一个高性能强化学习库,实现了PPO、A2C等算法,支持NVIDIA Isaac Gym、Brax等环境的GPU加速训练。该库具备异步actor-critic、多智能体训练、自对弈等功能,可在多GPU上并行。rl_games提供Colab notebook示例便于快速上手,在多个基准测试中表现出色。作为一个功能丰富的强化学习工具,rl_games兼具高性能和易用性。
neuron_poker - OpenAI Gym德州扑克训练环境 开发强大AI玩家
Neuron Poker德州扑克OpenAI GymAI智能体强化学习Github开源项目
Neuron Poker是基于OpenAI Gym的德州扑克AI训练环境。项目提供多种智能代理模型,包括随机策略、equity策略和深度强化学习。通过C++实现的快速equity计算和详细的观察行动空间,开发者可以自定义模型并协作改进,推动扑克AI技术进步。
tmrl - 实时机器人控制与自动驾驶AI的分布式强化学习框架
TMRL强化学习自动驾驶TrackMania 2020Gymnasium环境Github开源项目
TMRL是一个面向机器人学习的分布式强化学习框架,专注于实时应用中的深度强化学习AI训练。该框架以TrackMania 2020游戏为例,展示了基于原始截图的自动驾驶控制。TMRL具备安全远程训练、灵活定制和实时环境兼容性等特点,采用单服务器多客户端架构,可在多个节点收集样本并在高性能集群上进行训练。
rl4co - 统一框架助力组合优化问题的强化学习解决方案
RL4CO强化学习组合优化PyTorch开源框架Github开源项目
RL4CO是一个专注于组合优化问题的开源强化学习框架。基于PyTorch构建,它整合了TorchRL和TensorDict等技术,提供统一接口和灵活实现。框架支持构造型和改进型策略,适配多种环境和模型。其模块化设计和丰富工具集有助于研究人员高效开发和评估新算法,为组合优化研究提供了全面的实验平台。
accel-brain-code - 深度学习和机器学习算法库集合
深度学习机器学习强化学习自动编码器生成对抗网络Github开源项目
accel-brain-code是一个开源项目,集成了多个深度学习和机器学习算法库。它包括自动编码器、生成对抗网络、深度强化学习等模块,旨在通过概念验证和研发创建原型。该项目探索了AI民主化后的机器学习研发可能性,为快速开发复杂AI系统提供了基础。其功能涵盖自动摘要、强化学习、生成对抗网络等多个领域。
Reinforcement-Learning-Papers - 强化学习顶会论文精选资源库
强化学习多智能体论文集研究趋势算法Github开源项目
这是一个汇集AAAI、IJCAI、NeurIPS等顶级会议强化学习论文的资源库。涵盖多智能体、元学习、分层学习等前沿方向,提供PDF和代码链接。项目定期更新,为研究人员追踪领域发展、探索新算法提供便捷参考。
simglucose - Python实现的1型糖尿病模拟器助力强化学习研究
simglucose糖尿病模拟器强化学习OpenAI Gym血糖控制Github开源项目
simglucose 是一个基于 FDA 批准的 UVa/Padova Simulator 实现的开源 1 型糖尿病模拟器。它包含 30 个虚拟患者模型,兼容 OpenAI Gym 和 rllab API,支持自定义奖励函数和控制器。该项目支持并行计算,能生成多种性能分析图表。研究人员可利用 simglucose 开发和测试糖尿病管理的强化学习算法,为相关研究提供了便利。
PPOxFamily - PPO算法在决策智能领域的应用实践
PPO强化学习决策智能深度学习智能体Github开源项目
PPOxFamily是一个深度强化学习入门课程,聚焦PPO算法在决策智能领域的应用。课程通过视频讲解、理论资料和代码示例,系统阐述PPO算法原理及其在复杂动作空间、多模态观察、稀疏奖励、时序建模和多智能体等问题上的应用。内容涵盖理论讲解、补充材料、习题及解答,以及详细的代码实现,为学习者提供全面的学习资源。
reinforcement_learning_course_materials - 强化学习完整开源课程资料 包括讲义练习和视频
强化学习课程材料Python教学视频练习题Github开源项目
这个项目提供了全面的强化学习课程资料,包含讲义、练习题及答案和教学视频。内容覆盖从基础到高级的强化学习知识,如马尔可夫决策过程、动态规划、蒙特卡洛方法和时序差分学习等。每个主题配有详细讲解和Python代码实现。所有资料均为开源,适合自学者和教育工作者使用。该资源为强化学习的学习和教学提供了实用全面的材料支持。
ReinforcementLearning.jl - 高性能Julia强化学习框架
ReinforcementLearning.jl强化学习Julia开源项目机器学习Github
ReinforcementLearning.jl是Julia语言开发的强化学习框架,提供精心设计的组件和接口。研究人员可轻松实现新算法、进行基准测试和算法比较。框架支持从传统表格方法到深度强化学习,注重实验可重复性。其核心设计原则包括可重用性、可扩展性和易用性,适合各类强化学习实验和研究。
gym-mtsim - MetaTrader 5交易模拟与强化学习环境集成库
MetaTrader 5OpenAI Gym交易模拟强化学习回测Github开源项目
gym-mtsim是一个整合MetaTrader 5交易模拟器和OpenAI Gym强化学习环境的Python库。它支持多资产交易模拟、回测可视化及强化学习环境构建。该项目提供通用、易用且可读性强的工具,涵盖完整交易流程。适合各层次用户使用,可进行交易策略开发和测试。
q-transformer - 自回归Q函数实现离线强化学习
Q-Transformer强化学习AI模型神经网络机器人控制Github开源项目
Q-transformer项目是Google Deepmind提出的可扩展离线强化学习方法的开源实现。该项目通过自回归Q函数优化多动作选择,支持单一和多动作学习,并提供深度对偶架构和n步Q学习。它包含环境交互、数据集创建和学习流程,适用于复杂机器人控制任务。Q-transformer的创新性和灵活性为强化学习研究和应用提供了重要工具。
awesome-LLM-game-agent-papers - 大型语言模型驱动的游戏智能体研究最新进展
LLM游戏智能体人工智能自然语言处理强化学习Github开源项目
这个项目是关于大型语言模型(LLM)在游戏智能体研究中应用的论文集。内容涵盖文字冒险、Minecraft、社会模拟等多种游戏类型,展示LLM在游戏规划、决策和交互方面的能力。项目定期更新,为研究人员提供LLM游戏智能体领域的综合资源,助力了解该领域的前沿进展。
sumo-rl - 用于智能交通信号控制的强化学习框架
SUMO-RL强化学习交通信号控制多智能体交通仿真Github开源项目
SUMO-RL是基于SUMO交通模拟器的强化学习框架,专注于智能交通信号控制。该框架提供简洁接口,支持创建单代理和多代理强化学习环境,允许自定义状态和奖励函数,并兼容主流RL库。SUMO-RL简化了交通信号控制的强化学习研究过程,适用于多种交通网络和场景。目前已应用于多项研究,覆盖从单一交叉口到大规模城市网络的各类交通控制问题。
Reinforcement-Learning-Papers - 强化学习前沿论文收录与汇总
强化学习论文集模型无关模型相关离线学习Github开源项目
该项目全面收录强化学习领域最新论文,聚焦单智能体强化学习研究。内容涵盖模型无关、基于模型、离线、元学习等多个分支,并收录ICLR、ICML、NeurIPS等顶级会议论文。项目对每篇论文进行简要概括,为研究人员提供强化学习前沿进展参考。
HighwayEnv - 多场景自动驾驶模拟与决策训练环境
highway-env自动驾驶强化学习环境仿真决策系统Github开源项目
HighwayEnv是一个自动驾驶和决策任务模拟环境集。它包含高速公路、环岛、停车场和十字路口等多种场景,模拟真实驾驶情况。支持DQN、DDPG和MCTS等多种强化学习算法,便于研究人员开发和测试自动驾驶策略。该项目具有良好的可用性和扩展性,适用于自动驾驶研究和教学。
Xwin-LM-7B-V0.2 - 优化大语言模型对齐技术,显著提升性能
AlpacaEvalXwin-LM对齐技术大语言模型强化学习HuggingfaceGithub开源项目模型
Xwin-LM项目开发并开源大语言模型对齐技术,涵盖监督微调、奖励模型等多种方法。基于Llama2构建的版本在AlpacaEval评测中表现卓越,超过GPT-4。最新的Xwin-LM-7B-V0.2和13B-V0.2在与GPT-4的比较中分别达到59.83%和70.36%胜率。项目不断更新以提高模型的稳定性和可重复性。
Marco-o1 - 多语言翻译中的复杂问题解决利器
Marco-o1机器翻译开源推理模型强化学习多语言应用Github开源项目
Marco-o1是一种先进的推理模型,专注于解决开放性问题。采用创新的链式思维微调和蒙特卡洛树搜索策略,Marco-o1显著提高了多领域任务的解决能力,在机器翻译中首次应用大规模推理模型,在多语言数据集中展现卓越表现,提升了模型的整体准确率。
Starling-LM-7B-beta - Starling-LM-7B-beta提升语言模型生成质量与安全性
Openchat-3.5-0106强化学习自然语言处理Huggingface奖励模型Github开源项目模型Starling-LM-7B-beta
Starling-LM-7B-beta是一款基于AI反馈优化并从Openchat-3.5-0106微调的大型语言模型。通过升级后的奖励模型和策略优化,增强了语言生成质量和安全性,并在GPT-4评测中取得了8.12的高分。适用于多种对话场景,用户可在LMSYS Chatbot Arena免费测试,非常适合关注交互体验的开发者和研究人员。