#Reward model

Online-RLHF入门指南 - 面向大型语言模型的在线强化学习项目

2 个月前
Cover of Online-RLHF入门指南 - 面向大型语言模型的在线强化学习项目

Online-RLHF: 从奖励建模到在线人类反馈强化学习的工作流程

3 个月前
Cover of Online-RLHF: 从奖励建模到在线人类反馈强化学习的工作流程