#LLaMA3
Online-RLHF入门指南 - 面向大型语言模型的在线强化学习项目
2 个月前
Online-RLHF: 从奖励建模到在线人类反馈强化学习的工作流程
3 个月前
相关项目
Online-RLHF
本项目详细介绍了如何通过在线迭代性的人类反馈强化学习(RLHF)来对齐大规模语言模型(LLMs)。提供了详细的工作流程和易于复现的步骤,使用开源数据即可实现与LLaMA3-8B-instruct相当或更好的效果。内容包括模型发布、安装说明、数据生成、数据注释和训练步骤,帮助实现高效的在线RLHF训练。
FsfairX-LLaMA3-RM-v0.1
FsfairX-LLaMA3-RM-v0.1是一个基于LLaMA-3开发的强化学习奖励模型。该模型在Reward-Bench测试中取得了Chat 99.44分、Safety 88.76分等优秀成绩,支持PPO等多种人类反馈学习方法。项目提供完整的训练代码和使用示例,有助于开发更安全的AI应用。