SuperNova-Medius 项目介绍
SuperNova-Medius 是由 Arcee.ai 开发的一款拥有 140 亿参数的语言模型,它基于 Qwen2.5-14B-Instruct 架构。这一独特的模型通过跨架构蒸馏管道,结合了 Qwen2.5-72B-Instruct 和 Llama-3.1-405B-Instruct 两个模型的知识。通过利用这两种不同架构的优势,SuperNova-Medius 在中等规模且资源高效的形式下,实现了高质量的指令遵循和复杂推理能力。
SuperNova-Medius 设计用于在各种业务场景中出色表现,包括客户支持、内容创作和技术援助,同时保持与较小硬件配置的兼容性。这是一个理想的方案,适合寻求先进功能但不希望耗费大量资源的机构。
蒸馏概述
SuperNova-Medius 的开发涉及一个复杂的多教师跨架构蒸馏过程,关键步骤如下:
-
Llama 3.1 405B 的 Logit 蒸馏:
- 使用离线方式蒸馏 Llama 3.1 405B 的 logits。
- 存储每个标记的前 K 个 logits,以捕捉大部分概率质量同时管理存储要求。
-
跨架构适应:
- 使用
mergekit-tokensurgeon
,创建了一个使用 Llama 3.1 405B 词汇表的 Qwen2.5-14B 版本。 - 这使得能够在训练 Qwen-based 模型时使用 Llama 3.1 405B 的 logits。
- 使用
-
蒸馏到 Qwen 架构:
- 使用存储的 405B logits 作为目标,训练了经过适应的 Qwen2.5-14B 模型。
-
Qwen 并行蒸馏:
- 在一个独立的过程中,将 Qwen2-72B 蒸馏到一个 14B 模型中。
-
最终融合与微调:
- 将 Llama 蒸馏的 Qwen 模型的词汇表恢复为 Qwen 词汇表。
- 在重新对齐词汇表后,使用 EvolKit 的专用数据集进行最终融合和微调,以确保 SuperNova-Medius 在各种任务中保持连贯性、流畅性和上下文理解。
性能评价
下表显示了 SuperNova-Medius 在其类别内与类似模型的基准结果比较:
模型名 | 平均值 | IFEval | BBH | GPQA | MMLU Pro | MuSR | Math Level 5 |
---|---|---|---|---|---|---|---|
Mistral-Small 2409 | 0.423 | 0.628 | 0.581 | 0.333 | 0.410 | 0.406 | 0.181 |
Supernova-Lite | 0.427 | 0.786 | 0.511 | 0.306 | 0.388 | 0.415 | 0.155 |
Qwen2.5-14B-Instruct | 0.450 | 0.827 | 0.623 | 0.358 | 0.490 | 0.403 | 0.000 |
Supernova-Medius | 0.480 | 0.832 | 0.631 | 0.359 | 0.502 | 0.402 | 0.152 |
SuperNova-Medius 在指令遵循(IFEval)和复杂推理任务(BBH)中表现出色,展示了其处理各种真实场景的能力。它在多个基准测试中超越了 Qwen2.5-14B 和 SuperNova-Lite,成为高质量生成式 AI 应用的强大而高效的选择。
模型应用场景
Arcee-SuperNova-Medius 适用于多个应用领域,包括:
- 客户支持:凭借其稳健的指令遵循和对话管理能力,能够处理复杂的客户互动,降低人工干预的需求。
- 内容创作:模型的高级语言理解和生成能力,使其成为在不同领域创造高质量、连贯内容的理想选择。
- 技术援助:SuperNova-Medius 拥有丰富的技术知识储备,是编程、技术文档和其他专家级内容创作的优秀助手。
部署选项
SuperNova-Medius 可根据 Apache-2.0 许可证使用。对于需要更高性能的人,可以通过 Arcee 托管的 API 或进行本地部署来访问全尺寸 70B 的 SuperNova 模型。如需了解更多信息或探索部署选项,请联系 sales@arcee.ai。
技术规格
- 模型架构:Qwen2.5-14B-Instruct
- 蒸馏来源:Qwen2.5-72B-Instruct, Llama-3.1-405B-Instruct
- 参数数量:140 亿
- 训练数据集:EvolKit 生成的自定义指令数据集
- 蒸馏技术:具有跨架构词汇对齐的多架构离线 logit 蒸馏技术。
总结
Arcee-SuperNova-Medius 提供了强大、效率和多样性的独特平衡。通过将两种高性能教师模型的知识蒸馏到一个 140 亿参数模型中,SuperNova-Medius 实现了媲美更大模型的结果,同时保持了适合实际部署的紧凑尺寸。无论是客户支持、内容创作还是技术援助,SuperNova-Medius 都是希望以经济实惠和可访问形式利用高级语言模型能力的组织的完美选择。
Open LLM Leaderboard 评估结果
详细结果可以在此处找到。
指标 | 数值 |
---|---|
平均值 | 37.22 |
IFEval (0-Shot) | 55.60 |
BBH (3-Shot) | 49.30 |
MATH Lvl 5 (4-Shot) | 32.48 |
GPQA (0-shot) | 17.90 |
MuSR (0-shot) | 19.19 |
MMLU-PRO (5-shot) | 48.83 |