Logo

#Reward model

Online-RLHF入门指南 - 面向大型语言模型的在线强化学习项目

1 个月前
Cover of Online-RLHF入门指南 - 面向大型语言模型的在线强化学习项目

Online-RLHF: 从奖励建模到在线人类反馈强化学习的工作流程

2 个月前
Cover of Online-RLHF: 从奖励建模到在线人类反馈强化学习的工作流程