#RewardBench

RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

2 个月前
Cover of RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

RewardBench: 评估语言模型奖励模型的创新基准

3 个月前
Cover of RewardBench: 评估语言模型奖励模型的创新基准

RLHF:人类反馈强化学习的原理与应用

3 个月前
Cover of RLHF:人类反馈强化学习的原理与应用