热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#SimPO
SimPO:一种简单而高效的无参考奖励偏好优化方法
2 个月前
SimPO是一种新的偏好优化算法,相比DPO等现有方法更简单高效。它无需参考模型,使用序列的平均对数概率作为隐式奖励,在各种基准测试上都取得了优异的表现。
SimPO
DPO
Gemma
UltraFeedback
ArmoRM
Github
开源项目
2 个月前
相关项目
SimPO
SimPO是一个无需参考模型的简化偏好优化算法,表现优于AlpacaEval 2、MT-Bench和Arena-Hard等多个基准。2024年7月更新发布的SimPO模型通过微调Google的gemma-2 9B模型,达成了72.4% AlapcaEval 2 LC胜率和59.1% Arena-Hard胜率。更多详情、训练脚本和数据生成脚本请访问SimPO的GitHub仓库。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号