#Step-DPO

Step-DPO: 革新长链推理的阶段性偏好优化方法

2024年09月05日

Step-DPO 长链推理大语言模型数学问题模型微调 Github 开源项目

2024年09月05日

相关项目

Step-DPO

Step-DPO是一种旨在提升大语言模型长链推理能力的新方法。该方法通过数据构建流程生成了1万对高质量步骤偏好对数据集，在仅使用少量数据的情况下显著提升了模型性能。研究表明，Step-DPO能将Qwen2-7B-Instruct在MATH和GSM8K测试集上的得分分别提高5.6%和2.4%。应用Step-DPO后的Qwen2-72B-Instruct更是在这两个测试集上分别达到70.8%和94.0%的得分，超越了多个闭源模型。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com