#pair-preference model

RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

2 个月前
Cover of RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

RLHF:人类反馈强化学习的原理与应用

3 个月前
Cover of RLHF:人类反馈强化学习的原理与应用