热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#训练算法
direct-preference-optimization - DPO算法实现语言模型的偏好数据优化
DPO
语言模型
偏好优化
机器学习
训练算法
Github
开源项目
DPO(Direct Preference Optimization)是一种语言模型训练算法,通过偏好数据优化模型。该项目提供DPO算法的参考实现,包含监督微调和基于偏好学习两个阶段。支持各种因果HuggingFace模型,可添加自定义数据集,并包括'conservative' DPO和IPO等变体。这为研究人员提供了灵活工具,用于从偏好数据训练语言模型。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号