suzume-llama-3-8B-multilingual-orpo-borda-top25

项目介绍：Suzume-llama-3-8B-multilingual-orpo-borda-top25

背景

Suzume-llama-3-8B-multilingual-orpo-borda-top25项目是基于lightblue团队模型的一次改进，这个模型专注于多语言自然语言处理。它被设计用于多语言环境，并且能够处理多种输入语言。该项目中使用了ORPO（Ordered Pairwise Ranking Optimization）技术进行微调，提升了模型在多个语言测试中的表现。

Suzume ORPO模型

Suzume ORPO是对lightblue/suzume-llama-3-8B-multilingual这一基础模型进行的ORPO微调实验。微调过程中采用了lightblue/mitsu数据集，该数据经过特别挑选，用于提高模型的理解和生成能力。

模型列表

在微调过程中，不同版本的模型使用了不同比例的lightblue/mitsu数据集:

lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full 使用了数据集中所有提示的上下回应进行训练。
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75 仅使用数据集中排名前75%的一致性回应进行训练。
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half 选择了前50%的一致性回应。
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25 选用了前25%的回应进行优化训练。

模型效果

通过MT-Bench，我们比较了多个ORPO微调模型在六种语言中的表现，结果显示，我们的模型在相当多的语言评估中取得了显著的提升。

数据与训练配置

模型使用lightblue/mitsu_full_borda数据集训练，而训练配置包括学习率、批次大小和优化器等多种参数设置，使得模型能够在多GPU环境下进行高效训练。

评价结果

在评估阶段，模型展示了优异的损失降低情况，这也证明了选择的数据集和训练策略的有效性。例如，模型的评估损失从0.0818不断降低。

当前应用与局限

虽然模型在多个方面表现较好，但为了迎合商业应用的需求，目前团队也在开发商业可用版本的模型，这意味着模型的部署和使用可能会受到一些限制条件。

如何引用

如果希望在学术研究中引用该模型及其方法，可以参考以下文献格式：

@article{devine2024sure,
  title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets},
  author={Devine, Peter},
  journal={arXiv preprint arXiv:2405.18952},
  year={2024}
}