Infinity-Instruct-3M-0625-Llama3-8B

项目介绍：Infinity-Instruct-3M-0625-Llama3-8B

项目背景

Infinity-Instruct-3M-0625-Llama3-8B 是由北京智源人工智能研究院（BAAI）开发的开源监督指令微调模型。这一模型无需人类反馈的强化学习（RLHF），主要通过在 Infinity-Instruct-3M 和 Infinity-Instruct-0625 数据集上进行微调。在 AlpacaEval 2.0 和 MT-Bench 测试中，这一模型展现了出色的表现。

训练细节

Infinity-Instruct-3M-0625-Llama3-8B 的训练数据来自百万级别的指令数据集 Infinity-Instruct。模型通过基础数据集 Infinity-Instruct-3M 提高了 Llama3-8B 的数学和编码基础能力，然后进行微调，以获取更强的聊天模型。

训练参数如下：

Epoch：3
学习率（lr）：5e-6
最小学习率（min_lr）：0
学习率预热步骤：40
学习率衰减方式：cosine
权重衰减：0.0
Adam 优化器参数：beta1=0.9, beta2=0.95
全局批处理大小：528
梯度裁剪：1.0

利用 FlagScale 的优化技术，该项目有效地减少了训练成本。目前代码尚未发布，不过未来会开放更多资源。

基准测试

Infinity-Instruct-3M-0625-Llama3-8B 在 MT-Bench 和 AlpacaEval2.0 两个主流基准测试中进行了评估。MT-Bench 是一组包含代码、数学和常规对话的复杂多轮问题，而 AlpacaEval2.0 则基于 AlpacaFarm 的评估集合。评估显示，这一模型在 AlpacaEval2.0 中的表现尤为突出。