Logo

#PPO

LLM-RLHF-Tuning入门指南 - 基于人类反馈的大语言模型强化学习微调实战

1 个月前
Cover of LLM-RLHF-Tuning入门指南 - 基于人类反馈的大语言模型强化学习微调实战

PPO x Family: 深度强化学习入门公开课

2 个月前
Cover of PPO x Family: 深度强化学习入门公开课

深度强化学习从零到精通:drl-zh项目全面解析

2 个月前
Cover of 深度强化学习从零到精通:drl-zh项目全面解析

RLHF优化:大语言模型对齐的关键技术

2 个月前
Cover of RLHF优化:大语言模型对齐的关键技术

ChatGLM-Math: 通过自我批评流程提升大语言模型的数学问题解决能力

2 个月前
Cover of ChatGLM-Math: 通过自我批评流程提升大语言模型的数学问题解决能力

PPO-for-Beginners: 从零开始实现强化学习算法PPO

2 个月前
Cover of PPO-for-Beginners: 从零开始实现强化学习算法PPO

基于深度强化学习的CARLA自动驾驶技术实现

2 个月前
Cover of 基于深度强化学习的CARLA自动驾驶技术实现

深度强化学习在超级马里奥游戏中的应用 - PPO算法实现与分析

2 个月前
Cover of 深度强化学习在超级马里奥游戏中的应用 - PPO算法实现与分析

相关项目

Project Cover
Super-mario-bros-PPO-pytorch
该项目采用OpenAI开发的Proximal Policy Optimization (PPO) 算法,有效地训练AI,使其在超级马里奥兄弟游戏中完成31/32关卡。PPO算法因其出色的性能和适应性而广受关注,适用于视频游戏AI开发等多种场景。
Project Cover
LLM-RLHF-Tuning
本项目实现了RLHF的三阶段训练,包括指令微调、奖励模型训练和PPO算法训练。支持LLaMA和LLaMA2模型,并提供多种分布式加速训练方法。项目附有详细的实现文档,并对比了其他开源框架的功能,是RLHF训练的宝贵资源。
Project Cover
llama-trl
本项目LLaMA-TRL通过PPO和LoRA技术进行大规模语言模型的微调,采用TRL(变压器强化学习)和PEFT(参数高效微调)方法。本文详细介绍了从安装依赖到具体实现的步骤,包括监督微调、奖励模型训练和PPO微调,助力开发者显著提升模型性能和任务适应能力。
Project Cover
Autonomous-Driving-in-Carla-using-Deep-Reinforcement-Learning
该项目在CARLA仿真环境中,使用深度强化学习方法进行自动驾驶训练。通过结合PPO算法和变分自编码器(VAE),加速学习并提高驾驶决策能力。项目采用Python和PyTorch构建,重点在于自动驾驶和障碍物回避的持续学习。对于推动自动驾驶技术和决策效率研究具有显著意义。
Project Cover
Contra-PPO-pytorch
本项目利用Proximal Policy Optimization (PPO)算法,通过Python代码训练AI智能体进行Contra NES游戏。PPO算法由OpenAI提出,其早期版本曾用于训练OpenAI Five在电竞中取得胜利。项目提供了详细的训练指南、示例代码,并支持Docker环境,方便进行模型的训练和测试。本项目展示了PPO算法在游戏AI中的实际应用效果。
Project Cover
trlx
一个专注于强化学习微调大型语言模型的分布式训练框架。支持使用奖励函数或已标注数据集进行训练,兼容🤗Hugging Face和NVIDIA NeMo模型,可扩展到20B参数以上。实现了PPO和ILQL等多种RL算法,提供详细文档和丰富示例,支持分布式训练和超参数搜索。适用于各种应用场景,通过高效并行技术提升训练效率。
Project Cover
drl-zh
本课程提供深度强化学习的基础和经典算法的实用入门指导。学习者将从零开始编写DQN、SAC、PPO等算法,并掌握相关理论。课程内容还包括训练AI玩Atari游戏及模拟登月任务。同时详细介绍环境设置和代码实现步骤,支持Visual Studio Code和Jupyter Notebook,确保学习过程流畅高效。
Project Cover
PPO-for-Beginners
该项目提供使用PyTorch从零实现近端策略优化(PPO)算法的教程。代码精简、注释详尽、结构清晰。涵盖PPO算法核心概念、网络实现及完整训练流程。适合想深入理解PPO算法细节的强化学习爱好者。
Project Cover
PPOxFamily
PPOxFamily是一个深度强化学习入门课程,聚焦PPO算法在决策智能领域的应用。课程通过视频讲解、理论资料和代码示例,系统阐述PPO算法原理及其在复杂动作空间、多模态观察、稀疏奖励、时序建模和多智能体等问题上的应用。内容涵盖理论讲解、补充材料、习题及解答,以及详细的代码实现,为学习者提供全面的学习资源。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号