#Online RLHF

Online-RLHF: 从奖励建模到在线人类反馈强化学习的工作流程

2024年08月31日
Cover of Online-RLHF: 从奖励建模到在线人类反馈强化学习的工作流程

Online-RLHF入门指南 - 面向大型语言模型的在线强化学习项目

2024年09月10日
Cover of Online-RLHF入门指南 - 面向大型语言模型的在线强化学习项目