#Llama3-8b

Llama-3-8b-rm-mixture - 基于Llama3-8b的奖励模型训练与优化

Github开源项目模型数据集训练Huggingface奖励模型OpenRLHFLlama3-8b

Llama-3-8b奖励模型利用OpenRLHF进行训练，结合OpenLLMAI的数据集，旨在提高模型性能。该项目基于Llama-3-8b-sft-mixture模型，使用余弦调度器，学习率为9e-6，预热比例0.03，批量大小256，并执行一次学习迭代。目标是通过优化和数据集策略，提升模型的奖励决策能力，为深度学习与AI开发者提供精确的工具。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号