#Step-DPO

Step-DPO: 革新长链推理的阶段性偏好优化方法

3 个月前
Cover of Step-DPO: 革新长链推理的阶段性偏好优化方法