#pair-preference model

RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

2024年09月10日
Cover of RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

RLHF:人类反馈强化学习的原理与应用

2024年08月30日
Cover of RLHF:人类反馈强化学习的原理与应用