项目介绍:Suzume-llama-3-8B-multilingual-orpo-borda-top75
背景介绍
Suzume ORPO项目是对基础模型lightblue/suzume-llama-3-8B-multilingual进行微调的成果。微调过程中使用了lightblue/mitsu数据集,并采用了ORPO方法进行训练。项目的最终目标是开发出性能卓越且适用于多语言环境的语言模型。
模型列表
本项目中,通过对数据集不同部分的响应进行训练,生成了多个版本的模型:
- 全范围响应模型:训练数据包含数据集中所有提示的最高和最低响应。模型地址:lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full
- Top 75% 响应模型:只训练数据集中75%表现最一致提示的最高和最低响应。模型地址:lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75
- Top 50% 响应模型:对于50%表现最一致的提示,进行最高和最低响应的训练。lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half
- Top 25% 响应模型:选取25%排名最为一致的提示用于训练。lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25
训练结果
模型在多种语言上进行了MT-Bench评分对比,评估结果显示,与基础模型相比,ORPO模型在多数语言上都表现出显著改进,尤其在某些语言上取得了所有评价模型中的最高分。例如,在中文上,lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75
取得了7.77的高分,高于基础模型7.11的成绩。
训练数据和配置
模型训练过程中,使用到了lightblue/mitsu_full_borda数据集。训练过程采用了ORPO方法和多个配置参数,包括以下设置:
- 学习率:8e-06
- 训练批量大小:1
- 使用多GPU进行分布式训练
- 共进行了1个周期的训练
项目未来
虽然当前模型由于使用商业数据生成训练集而限于非商业用途,但项目团队正在开发新的商业可用版本,值得期待。
转载引用
若要引用本项目结果或研究,可以使用以下格式:
@article{devine2024sure,
title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets},
author={Devine, Peter},
journal={arXiv preprint arXiv:2405.18952},
year={2024}
}
开发者
项目由Peter Devine开发,更多信息可以通过其个人主页ptrdvn获取。