相关项目
SimPO
SimPO是一个无需参考模型的简化偏好优化算法,表现优于AlpacaEval 2、MT-Bench和Arena-Hard等多个基准。2024年7月更新发布的SimPO模型通过微调Google的gemma-2 9B模型,达成了72.4% AlapcaEval 2 LC胜率和59.1% Arena-Hard胜率。更多详情、训练脚本和数据生成脚本请访问SimPO的GitHub仓库。
gemma-2-9b-it-SimPO
该项目基于Google的Gemma-2-9b-it模型,采用创新的SimPO算法在UltraFeedback数据集上进行微调。SimPO通过对齐奖励函数和生成概率,优化大型语言模型性能,无需参考模型。优化后的模型在多项评估指标上表现优异,尤其是对话能力和生成质量方面。项目提供了详细的模型信息、训练细节和评估结果,为相关研究和应用奠定基础。