Qwen2-72B - 新一代开源大语言模型在多个领域表现出色的中立评估

项目介绍：Qwen2-72B

概述

Qwen2-72B是Qwen系列语言模型的新成员，这是一组大型语言模型，旨在提升语言理解和生成能力。Qwen2系列包括多个基础语言模型和经过指令调优的语言模型，参数数量从0.5亿到720亿不等，其中还包含一个专家模型（Mixture-of-Experts）。目前，这里介绍的是具有72亿参数的Qwen2基础语言模型。

相较于当前最先进的开源语言模型，包括之前发布的Qwen1.5，Qwen2在语言理解、多语言能力、编码、数学和推理等多项指标上都表现出显著的优势，并与一些专有语言模型有较强的竞争力。

有关更多信息，请参阅我们的博客、GitHub和文档。

模型详情

Qwen2是由多个不同规模的解码器语言模型组成的系列产品。对于每种规模的模型，我们都发布了基础语言模型和对话模型。Qwen2基于Transformer架构，采用SwiGLU激活函数、注意力QKV偏置、组查询注意力等技术。此外，我们改进了分词器，使其适应多种自然语言和代码。

环境需求

Qwen2的代码已集成到最新的Hugging Face Transformers中。建议安装transformers>=4.37.0，否则可能会遇到如下错误：

KeyError: 'qwen2'

使用指导

我们不建议直接使用基础语言模型进行文本生成。可以通过后续的训练（如SFT、RLHF、继续预训练等）来提升模型的能力。

性能表现

基础模型主要针对自然语言理解、一般性问答、编码、数学、科学知识、推理、多语言能力等方面进行评估。评估使用的数据集包括：

英语任务：MMLU、MMLU-Pro、GPQA、Theorem QA、BBH、HellaSwag、Winogrande、TruthfulQA、ARC-C
编码任务：EvalPlus、MultiPL-E
数学任务：GSM8K、MATH
中文任务：C-Eval、CMMLU
多语言任务：Multi-Exam、Multi-Understanding、Multi-Mathematics、Multi-Translation

Qwen2-72B的具体性能

在各种任务的表现中，Qwen2-72B相较于其他模型，通常拥有更高的准确率和更好的表现。例如，在英语任务中的MMLU上达到了84.2%，在编码任务中的HumanEval中更是达到64.6%的优异成绩。其多语言能力和数学能力也均显示出强劲的表现。

如果您对我们的工作感兴趣，欢迎引用我们的成果。

@article{qwen2,
  title={Qwen2 Technical Report},
  year={2024}
}