#多智能体强化学习

AI-Optimizer - 涵盖从无模型到基于模型,从单智能体到多智能体的多种算法的多功能深度强化学习平台
AI-Optimizer深度强化学习多智能体强化学习离线强化学习自监督学习Github开源项目
AI-Optimizer是一款多功能深度强化学习平台,涵盖从无模型到基于模型,从单智能体到多智能体的多种算法。其分布式训练框架高效便捷,支持多智能体强化学习、离线强化学习、迁移和多任务强化学习、自监督表示学习等,解决维度诅咒、非平稳性和探索-利用平衡等难题,广泛应用于无人机、围棋、扑克、机器人控制和自动驾驶等领域。
SMARTS - 自动驾驶多智能体强化学习模拟平台
SMARTS多智能体强化学习自动驾驶仿真平台人工智能Github开源项目
SMARTS是一个专注于真实和多样化交互的自动驾驶多智能体强化学习模拟平台,由华为诺亚方舟实验室开发。该平台提供丰富的文档、示例和模型,支持研究人员进行自动驾驶领域的复杂实验。SMARTS具有高度可扩展性,能够模拟各种复杂交通场景,为自动驾驶技术研究提供了重要的仿真环境。
Mava - 基于JAX的高效多智能体强化学习框架
Mava多智能体强化学习JAX分布式计算环境包装器Github开源项目
Mava是基于JAX的分布式多智能体强化学习框架,提供精简代码实现和快速迭代工具。它集成了MARL算法、环境封装、教学资源和评估方法,充分利用JAX并行计算优势,在多个环境中实现卓越性能和训练速度。Mava设计简洁易懂,便于扩展,适合MARL研究人员和实践者使用。
PantheonRL - 多智能体强化学习训练和测试的模块化框架
PantheonRL多智能体强化学习训练框架自适应训练StableBaselines3Github开源项目
PantheonRL是一个用于多智能体强化学习环境训练和测试的开源框架。它提供模块化和可扩展的功能,支持智能体策略训练、微调、动态配对等。基于StableBaselines3构建,PantheonRL采用去中心化训练方法,为每个智能体配备独立的重放缓冲区和更新算法。此外,它还提供Web用户界面,便于进行轻量级实验和原型设计,支持自我对弈、交叉对弈、循环训练和微调等多种训练模式。
smac - 星际争霸II多智能体强化学习环境
SMAC多智能体强化学习星际争霸IIPySC2DeepMindGithub开源项目
SMAC是基于星际争霸II的多智能体强化学习研究环境,专注于分散式微观管理场景。环境中每个游戏单位由独立的强化学习智能体控制。SMAC提供多种预配置战斗场景地图,并与PyMARL框架集成,支持QMIX等先进算法。研究人员可利用SMAC开发和评估新的多智能体强化学习算法,促进该领域的进步。
PettingZoo - Python多智能体强化学习库
PettingZoo多智能体强化学习Python库环境模拟APIGithub开源项目
PettingZoo是一个Python库,专为多智能体强化学习研究设计。它采用Agent Environment Cycle (AEC)游戏模型,提供统一的API支持各类多智能体环境。该库包含Atari、Butterfly、Classic等多个环境家族,支持多样化的智能体交互。PettingZoo还提供并行API用于同步行动场景,并通过严格的版本控制确保实验可重现性。
pymarl2 - 多智能体强化学习的高效实现框架
QMIX多智能体强化学习StarCraft超参数调优通信任务Github开源项目
PyMARL2是一个开源项目,专注于改进协作多智能体强化学习的实现技巧和约束。该项目针对StarCraft多智能体挑战进行了优化,实现了QMIX、VDN、IQL等多种算法。通过采用值函数裁剪、奖励缩放等技巧,PyMARL2显著提升了QMIX在复杂场景中的性能。此外,该框架还支持通信任务和Google Football环境,为多智能体强化学习研究提供了有力工具。
BenchMARL - 多智能体强化学习的标准化基准测试平台
BenchMARL多智能体强化学习TorchRL算法比较环境集成Github开源项目
BenchMARL是一个专注于多智能体强化学习(MARL)的开源训练库,旨在提供标准化接口实现不同算法和环境的可重复性比较。它基于TorchRL后端,支持高效实现和灵活配置,可轻松集成新算法和环境。BenchMARL提供了统一的评估体系,支持marl-eval兼容的数据报告,为MARL研究提供了可靠的基准测试平台。
UAV_Obstacle_Avoiding_DRL - 深度强化学习驱动的无人机自主避障算法研究
UAV深度强化学习障碍物避障多智能体强化学习路径规划Github开源项目
本项目研究了深度强化学习在UAV自主避障中的应用,涵盖静态和动态环境。研究结合多智能体强化学习、人工势场法和扰动流场算法等创新技术,并与A*、RRT等传统路径规划方法进行对比。项目实现了MADDPG、TD3、PPO等多种算法,提供MATLAB和Python代码。仿真实验表明,深度强化学习方法在无人机障碍物避免任务中展现出优越性能,为自主导航技术发展提供了新思路。