项目介绍:suzume-llama-3-8B-multilingual-orpo-borda-half
背景
suzume-llama-3-8B-multilingual-orpo-borda-half
是一个基于多语言模型的项目,旨在通过细致训练改进模型的多语言理解和文本生成能力。该项目基于lightblue/suzume-llama-3-8B-multilingual
模型进行优化,使用了lightblue/mitsu
数据集,通过ORPO(优化排行偏好优化)方法进行训练。
项目目标
该项目的主要目标是提升模型在不同语言上的表现,使其在处理多语言任务时更加精准。在项目中,研究人员对数据集中最为一致排名的50%响应进行了训练和优化,确保模型具有良好的语言理解能力。
模型版本
在项目中,研究团队训练了多个版本的模型,分别使用了不同比例的数据集进行优化:
- Full版本:训练时使用数据集中所有提示的顶级/底级响应。
- Top75版本:训练时使用75%排名最一致的提示的顶级/底级响应。
- Half版本(即
suzume-llama-3-8B-multilingual-orpo-borda-half
):使用50%排名最一致的提示。 - Top25版本:使用25%排名最一致的提示。
推荐使用Half
版本,因为该版本在测试中表现较好,特别是在多个语言上的测试分数均有改善。
测试结果
在模型测试中,研究人员比较了六种语言的MT-Bench分数,并与一些基线模型进行了对比。以下是部分测试结果:
- 中文:表现较好,得分为7.74。
- 英语:与基础模型相比表现一致,得分为7.98。
- 法语、德语、日语和俄语:在大多数语言中,ORPO模型超越了基础模型,尤其在俄语测试中达到了8.94的高分。
数据集与训练配置
模型使用了lightblue/mitsu_full_borda
数据集进行训练。训练中使用了如下配置:
- 学习率:8e-6
- 批大小:训练时为32,评估时为4
- 优化器:采用Adam优化
当前状态及未来计划
目前该模型仅限于非商业用途,研究团队正在开发一个可供商业使用的版本,未来可能会发布更多改进与更新。
引用与开发者
该项目由Peter Devine开发。有关详细的信息或引用格式,请参阅其在arXiv上的论文:Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets。