热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Self-Play Preference Optimization
Llama-3-Instruct-8B-SPPO-Iter2 - 通过自我博弈偏好优化实现语言模型对齐
Self-Play Preference Optimization
模型调优
Huggingface
训练参数
Github
开源项目
模型
合成数据集
语言模型
该模型在第二轮自我博弈偏好优化中,通过在合成数据集上的微调实现性能提升。基于Meta-Llama-3-8B-Instruct架构,该过程从openbmb/UltraFeedback数据集中提取提示集,并通过snorkelai/Snorkel-Mistral-PairRM-DPO数据集进行三次迭代以提高生成响应的质量。在AlpacaEval和Open LLM排行榜上,该模型在语言理解和推理任务中表现出更优胜率和准确度。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号