项目介绍:Llama-3-Instruct-8B-SPPO-Iter3
项目背景
Llama-3-Instruct-8B-SPPO-Iter3是一个通过自我博弈偏好优化(Self-Play Preference Optimization, SPPO)技术开发的自然语言处理模型。这个模型是基于Meta-Llama-3-8B模型架构,并进行了三次迭代优化。此项目的主要目的是提升文本生成任务中的模型表现。
模型描述
- 模型类型:具备80亿参数的GPT类模型,通过合成数据集进行微调。
- 使用语言:主要是英语
- 开源许可:Apache-2.0
- 微调基础模型:
meta-llama/Meta-Llama-3-8B-Instruct
。
使用的数据集
在不同的任务中,项目使用了多种数据集进行测试和验证,包括:
-
IFEval (0-Shot):这项测试在没有任何示例的情况下使用。
- 性能指标:严格准确率为68.28。
-
BBH (3-Shot):包含3个示例的测试集。
- 性能指标:归一化准确率为29.74。
-
MATH Lvl 5 (4-Shot):包含4个示例的数学题测试集。
- 性能指标:准确匹配率为7.33。
-
GPQA (0-shot):完全零示例的问答测试。
- 性能指标:归一化准确率为2.01。
-
MuSR (0-shot):完全零示例的任务。
- 性能指标:归一化准确率为3.09。
-
MMLU-PRO (5-shot):包含5个示例的测试。
- 性能指标:准确率为29.38。
模型性能评估
项目在多种标准下进行了评估,如AlpacaEval和Open LLM Leaderboard的评估:
- AlpacaEval评估:Llama-3-Instruct-8B-SPPO-Iter3的总体胜率为39.85%,在三个迭代版本中表现最佳。
- Open LLM Leaderboard 1评估:在arc_challenge、truthfulqa_mc2等多个子任务中取得了70.29的平均分。
- Open LLM Leaderboard 2评估:各项得分见前述数据集。
训练超参数
在训练过程中使用了如下超参数:
- 学习率:5e-07
- Eta:1000
- 每设备训练批次大小:8
- 梯度累积步骤:1
- 随机种子:42
- 分布式类型:deepspeed_zero3
- 使用设备数量:8
- 优化器:RMSProp
- 学习率调度器类型:线性
- 学习率调度器预热比例:0.1
- 训练世代数:6.0(在第1个世代停止)
这些超参数设置确保了模型在大规模数据集中有效学习和优化,通过多次迭代提升表现。
引用
``` @misc{wu2024self, title={Self-Play Preference Optimization for Language Model Alignment}, author={Wu, Yue and Sun, Zhiqing and Yuan, Huizhuo and Ji, Kaixuan and Yang, Yiming and Gu, Quanquan}, year={2024}, eprint={2405.00675}, archivePrefix={arXiv}, primaryClass={cs.LG} } \