Llama-3-Instruct-8B-SPPO-Iter3

项目介绍：Llama-3-Instruct-8B-SPPO-Iter3

项目背景

Llama-3-Instruct-8B-SPPO-Iter3是一个通过自我博弈偏好优化(Self-Play Preference Optimization, SPPO)技术开发的自然语言处理模型。这个模型是基于Meta-Llama-3-8B模型架构，并进行了三次迭代优化。此项目的主要目的是提升文本生成任务中的模型表现。

模型描述

模型类型：具备80亿参数的GPT类模型，通过合成数据集进行微调。
使用语言：主要是英语
开源许可：Apache-2.0
微调基础模型：meta-llama/Meta-Llama-3-8B-Instruct。

使用的数据集

在不同的任务中，项目使用了多种数据集进行测试和验证，包括：

IFEval (0-Shot)：这项测试在没有任何示例的情况下使用。
- 性能指标：严格准确率为68.28。
BBH (3-Shot)：包含3个示例的测试集。
- 性能指标：归一化准确率为29.74。
MATH Lvl 5 (4-Shot)：包含4个示例的数学题测试集。
- 性能指标：准确匹配率为7.33。
GPQA (0-shot)：完全零示例的问答测试。
- 性能指标：归一化准确率为2.01。
MuSR (0-shot)：完全零示例的任务。
- 性能指标：归一化准确率为3.09。
MMLU-PRO (5-shot)：包含5个示例的测试。
- 性能指标：准确率为29.38。

模型性能评估

项目在多种标准下进行了评估，如AlpacaEval和Open LLM Leaderboard的评估：

AlpacaEval评估：Llama-3-Instruct-8B-SPPO-Iter3的总体胜率为39.85%，在三个迭代版本中表现最佳。
Open LLM Leaderboard 1评估：在arc_challenge、truthfulqa_mc2等多个子任务中取得了70.29的平均分。
Open LLM Leaderboard 2评估：各项得分见前述数据集。

训练超参数

在训练过程中使用了如下超参数：

学习率：5e-07
Eta：1000
每设备训练批次大小：8
梯度累积步骤：1
随机种子：42
分布式类型：deepspeed_zero3
使用设备数量：8
优化器：RMSProp
学习率调度器类型：线性
学习率调度器预热比例：0.1
训练世代数：6.0（在第1个世代停止）

这些超参数设置确保了模型在大规模数据集中有效学习和优化，通过多次迭代提升表现。

引用

``` @misc{wu2024self, title={Self-Play Preference Optimization for Language Model Alignment}, author={Wu, Yue and Sun, Zhiqing and Yuan, Huizhuo and Ji, Kaixuan and Yang, Yiming and Gu, Quanquan}, year={2024}, eprint={2405.00675}, archivePrefix={arXiv}, primaryClass={cs.LG} } \