Logo

#ArmoRM

RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

1 个月前
Cover of RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

RLHF:人类反馈强化学习的原理与应用

2 个月前
Cover of RLHF:人类反馈强化学习的原理与应用

SimPO:一种简单而高效的无参考奖励偏好优化方法

2 个月前
Cover of SimPO:一种简单而高效的无参考奖励偏好优化方法