#UltraFeedback

UltraChat: 大规模、高质量的对话数据集及其在对话模型训练中的应用

3 个月前
Cover of UltraChat: 大规模、高质量的对话数据集及其在对话模型训练中的应用

SimPO:一种简单而高效的无参考奖励偏好优化方法

3 个月前
Cover of SimPO:一种简单而高效的无参考奖励偏好优化方法