热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#DPO Trainer
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B - 利用DPO优化方法提升语言模型的性能
偏好数据
Huggingface
DPO Trainer
TomGrc/FusionNet_7Bx2_MoE_14B
Github
开源项目
模型
数据集
语言模型
使用DPO Trainer在TomGrc/FusionNet_7Bx2_MoE_13B上优化语言模型,通过TRL实现偏好数据训练,提升模型效果。了解Rafailov等人的直接偏好优化方法,以提升模型性能,提供更精准的结果。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号