热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Llama3-8b
Llama-3-8b-rm-mixture - 基于Llama3-8b的奖励模型训练与优化
Github
开源项目
模型
数据集
训练
Huggingface
奖励模型
OpenRLHF
Llama3-8b
Llama-3-8b奖励模型利用OpenRLHF进行训练,结合OpenLLMAI的数据集,旨在提高模型性能。该项目基于Llama-3-8b-sft-mixture模型,使用余弦调度器,学习率为9e-6,预热比例0.03,批量大小256,并执行一次学习迭代。目标是通过优化和数据集策略,提升模型的奖励决策能力,为深度学习与AI开发者提供精确的工具。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号