项目介绍:Suzume-llama-3-8B-multilingual-orpo-borda-top25
背景
Suzume-llama-3-8B-multilingual-orpo-borda-top25项目是基于lightblue团队模型的一次改进,这个模型专注于多语言自然语言处理。它被设计用于多语言环境,并且能够处理多种输入语言。该项目中使用了ORPO(Ordered Pairwise Ranking Optimization)技术进行微调,提升了模型在多个语言测试中的表现。
Suzume ORPO模型
Suzume ORPO是对lightblue/suzume-llama-3-8B-multilingual这一基础模型进行的ORPO微调实验。微调过程中采用了lightblue/mitsu数据集,该数据经过特别挑选,用于提高模型的理解和生成能力。
模型列表
在微调过程中,不同版本的模型使用了不同比例的lightblue/mitsu数据集:
- lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full 使用了数据集中所有提示的上下回应进行训练。
- lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75 仅使用数据集中排名前75%的一致性回应进行训练。
- lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half 选择了前50%的一致性回应。
- lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25 选用了前25%的回应进行优化训练。
模型效果
通过MT-Bench,我们比较了多个ORPO微调模型在六种语言中的表现,结果显示,我们的模型在相当多的语言评估中取得了显著的提升。
数据与训练配置
模型使用lightblue/mitsu_full_borda数据集训练,而训练配置包括学习率、批次大小和优化器等多种参数设置,使得模型能够在多GPU环境下进行高效训练。
评价结果
在评估阶段,模型展示了优异的损失降低情况,这也证明了选择的数据集和训练策略的有效性。例如,模型的评估损失从0.0818不断降低。
当前应用与局限
虽然模型在多个方面表现较好,但为了迎合商业应用的需求,目前团队也在开发商业可用版本的模型,这意味着模型的部署和使用可能会受到一些限制条件。
如何引用
如果希望在学术研究中引用该模型及其方法,可以参考以下文献格式:
@article{devine2024sure,
title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets},
author={Devine, Peter},
journal={arXiv preprint arXiv:2405.18952},
year={2024}
}
开发者
项目由Peter Devine领导开发,ptrdvn为用户提供有关Suzume ORPO模型的更多信息。