#SPPO

SPPO: 自对弈偏好优化方法推动大语言模型对齐新突破

2 个月前

2 个月前

相关项目

SPPO

SPPO采用自我对弈框架和新的学习目标，有效提升大规模语言模型性能。通过理论推导和多数据集实证验证，SPPO无需外部信号即可超越GPT-4等模型。该项目源代码和多个优化模型如Mistral-7B、Llama-3-8B、Gemma-2-9B均已开源，详情可参考相关论文。

投诉举报邮箱: service@vectorlightyear.com