Qwen2-57B-A14B

项目介绍

Qwen2-57B-A14B是Qwen大语言模型系列中的一个新成员。Qwen2系列发布了一些基础语言模型和指导调优的语言模型，参数规模从0.5亿到72亿不等，包括一种称为Mixture-of-Experts（MoE）的模型。本文档介绍了Qwen2-57B-A14B这种MoE基础语言模型。

相比于当前最先进的开源语言模型，包括之前发布的Qwen1.5，Qwen2普遍超越了大多数开源模型，并在多个基准测试中展示了与专有模型的竞赛力。这些测试包括语言理解、语言生成、多语言能力、代码生成、数学、推理等方面。

模型详细信息

Qwen2系列是包含不同规模的解码器语言模型的语言模型系列。对于每个规模，我们发布了基础语言模型和对齐的聊天模型。这个系列基于Transformer架构，并采用SwiGLU激活函数、注意力QKV偏置、组查询关注等技术。此外，我们改进了分词器，使其可以适应多种自然语言和代码。

环境需求

Qwen2MoE的代码已集成在最新的Hugging Face transformers中，建议安装版本为transformers>=4.40.0，否则可能会遇到以下错误：

KeyError: 'qwen2_moe'

使用建议

我们不建议直接使用基础语言模型进行文本生成。相反，建议在此模型之上应用后续训练，比如SFT（特殊任务微调）、RLHF（基于人类反馈的强化学习），或继续预训练等方法。

性能表现

Qwen2-57B-A14B在自然语言理解、通用问答、代码生成、数学、科学知识、推理和多语言能力等方面的表现优异。评估所用的数据集包括：

英语任务：MMLU、MMLU-Pro、GPQA、Theorem QA、BBH、HellaSwag、Winogrande、TruthfulQA、ARC-C
代码任务：EvalPlus、MultiPL-E（包括Python、C++、JAVA、PHP等多种编程语言）
数学任务：GSM8K、MATH
中文任务：C-Eval、CMMLU
多语言任务：Multi-Exam、Multi-Understanding、Multi-Mathematics、Multi-Translation

在多个测试中，Qwen2-57B-A14B的表现超过了许多其他模型。例如，在C-Eval和CMMLU的中文任务中，该模型的表现显著优于Qwen1.5-32B。此外，在人类评估生成的代码任务、数学和多语言任务上，该模型也取得了令人印象深刻的成绩。

高效的MoE模型

相比训练7亿参数以下的模型，训练中等规模的模型（如32B）成本较高，而单一14B模型在执行复杂任务时不如72B模型那么好。由于最近MoE模型的成功，我们采用了MoE模型架构，并将其应用于更大的模型规模。具体而言，我们采用了与此前Qwen1.5-MoE-A2.7B相同的架构和训练策略，例如，循环使用技术。Qwen2-57B-A14B总计57亿参数，但每次前向传递仅激活14亿。通过与Qwen1.5-32B的比较，Qwen2-57B-A14B在性能和质量上都展示了明显的优势。

引用

如果您觉得我们的工作有所帮助，请随时引用我们的技术报告：

@article{qwen2,
  title={Qwen2 Technical Report},
  year={2024}
}

项目介绍

模型详细信息

环境需求

使用建议

性能表现

高效的MoE模型

引用

编辑推荐精选

讯飞智文

讯飞星火

Spark-TTS

Trae

咔片PPT

讯飞绘文

材料星

openai-agents-python

Hunyuan3D-2

3FS

探索AI的无限可能

推荐工具精选

Trae

豆包

讯飞文书

讯飞绘文

讯飞绘镜

阿里绘蛙

咔片PPT

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号