热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Mistral-7B-Instruct
SPPO - 自我对弈优化提升语言模型对齐效果
Github
开源项目
SPPO
AlpacaEval 2.0
Mistral-7B-Instruct
Llama-3-8B-Instruct
Gemma-2-9B-It-SPPO-Iter3
SPPO采用自我对弈框架和新的学习目标,有效提升大规模语言模型性能。通过理论推导和多数据集实证验证,SPPO无需外部信号即可超越GPT-4等模型。该项目源代码和多个优化模型如Mistral-7B、Llama-3-8B、Gemma-2-9B均已开源,详情可参考相关论文。
1
1
相关文章
SPPO: 自对弈偏好优化方法推动大语言模型对齐新突破
2 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号