mamba-2.8b-zephyr 项目介绍
mamba-2.8b-zephyr 是一个基于 xiuyul/mamba-2.8b-ultrachat 模型进行微调的机器学习模型。这个版本的模型在 HuggingFaceH4/ultrafeedback_binarized 数据集上利用 Direct Preference Optimization (DPO) 方法进行训练。
模型基础
模型的基础来源于 xiuyul/mamba-2.8b-ultrachat,它是基于 state-spaces/mamba-2.8b-slimpj 的指令微调版本,使用的数据集是 HuggingFaceH4/ultrachat_200k。
模型表现
mamba-2.8b-zephyr 模型在评估数据集上的表现如下:
- Loss(损失值):0.4996
- Rewards/chosen(奖励 - 已选择):-0.4523
- Rewards/rejected(奖励 - 已拒绝):-1.6105
- Rewards/accuracies(奖励 - 准确性):0.7857
- Rewards/margins(奖励 - 边际):1.1582
- Logps/rejected(对数可能性 - 已拒绝):-290.1885
- Logps/chosen(对数可能性 - 已选择):-359.0926
- Logits/rejected(逻辑值 - 已拒绝):23.0423
- Logits/chosen(逻辑值 - 已选择):23.1861
训练和评估数据
关于训练和评估数据的具体信息,需要更多资料进行补充。
训练程序
训练超参数
在训练过程中使用了如下超参数:
- 学习率:5e-07
- 训练批量大小:4
- 评估批量大小:4
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:8
- 梯度积累步骤数:2
- 总训练批量大小:64
- 总评估批量大小:32
- 优化器:Adam,参数 betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 学习率预热比例:0.1
- 训练轮数:3
训练结果
在训练的多个阶段,模型的损失值、奖励、对数概率和逻辑值等统计数据逐步调整,以优化模型性能。具体数据如上文所述表格中所示,表格展示了从初期到后期训练阶段各指标的变化。
框架版本
mamba-2.8b-zephyr 使用的框架和库版本如下:
- Transformers 4.35.0
- Pytorch 2.1.1+cu121
- Datasets 2.14.6
- Tokenizers 0.14.1
通过该模型的开发和优化,研究人员希望能够提升自然语言处理任务中的自动化表现,特别是在需要复杂指令理解和响应生成的领域中。