项目介绍:Qwen2-72B
概述
Qwen2-72B是Qwen系列语言模型的新成员,这是一组大型语言模型,旨在提升语言理解和生成能力。Qwen2系列包括多个基础语言模型和经过指令调优的语言模型,参数数量从0.5亿到720亿不等,其中还包含一个专家模型(Mixture-of-Experts)。目前,这里介绍的是具有72亿参数的Qwen2基础语言模型。
相较于当前最先进的开源语言模型,包括之前发布的Qwen1.5,Qwen2在语言理解、多语言能力、编码、数学和推理等多项指标上都表现出显著的优势,并与一些专有语言模型有较强的竞争力。
模型详情
Qwen2是由多个不同规模的解码器语言模型组成的系列产品。对于每种规模的模型,我们都发布了基础语言模型和对话模型。Qwen2基于Transformer架构,采用SwiGLU激活函数、注意力QKV偏置、组查询注意力等技术。此外,我们改进了分词器,使其适应多种自然语言和代码。
环境需求
Qwen2的代码已集成到最新的Hugging Face Transformers中。建议安装transformers>=4.37.0
,否则可能会遇到如下错误:
KeyError: 'qwen2'
使用指导
我们不建议直接使用基础语言模型进行文本生成。可以通过后续的训练(如SFT、RLHF、继续预训练等)来提升模型的能力。
性能表现
基础模型主要针对自然语言理解、一般性问答、编码、数学、科学知识、推理、多语言能力等方面进行评估。评估使用的数据集包括:
- 英语任务:MMLU、MMLU-Pro、GPQA、Theorem QA、BBH、HellaSwag、Winogrande、TruthfulQA、ARC-C
- 编码任务:EvalPlus、MultiPL-E
- 数学任务:GSM8K、MATH
- 中文任务:C-Eval、CMMLU
- 多语言任务:Multi-Exam、Multi-Understanding、Multi-Mathematics、Multi-Translation
Qwen2-72B的具体性能
在各种任务的表现中,Qwen2-72B相较于其他模型,通常拥有更高的准确率和更好的表现。例如,在英语任务中的MMLU上达到了84.2%,在编码任务中的HumanEval中更是达到64.6%的优异成绩。其多语言能力和数学能力也均显示出强劲的表现。
如果您对我们的工作感兴趣,欢迎引用我们的成果。
@article{qwen2,
title={Qwen2 Technical Report},
year={2024}
}