#ArmoRM

RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

2 个月前
Cover of RLHF-Reward-Modeling 学习资料汇总 - 训练RLHF奖励模型的开源工具包

SimPO:一种简单而高效的无参考奖励偏好优化方法

3 个月前
Cover of SimPO:一种简单而高效的无参考奖励偏好优化方法

RLHF:人类反馈强化学习的原理与应用

3 个月前
Cover of RLHF:人类反馈强化学习的原理与应用
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号