Qwen-14B

项目简介

通义千问-14B是由阿里云研发的一个大型语言模型项目，简称为Qwen-14B。这个项目属于通义千问大模型系列，拥有140亿参数规模。Qwen-14B是基于Transformer网络的大语言模型，经过超大规模的数据集进行预训练而得到的。这些数据种类丰富，覆盖了包括网络文本、专业书籍到代码在内的各个领域。在Qwen-14B的基础上，开发团队还利用对齐机制扩展出了一款大型AI助手模型，命名为Qwen-14B-Chat。Qwen-14B的代码和相关资源托管在一个专门的GitHub仓库中。

特点

大规模高质量训练语料
Qwen-14B使用了超过3万亿个tokens的数据进行预训练，其中包括高质量的中文、英文、多种语言文本、代码以及数学数据。所用的预训练语料涵盖通用和专业领域，并根据大量对比实验对数据分布进行优化。
强大的性能
在多个中英文下游评测任务（例如常识推理、代码、数学、翻译等）上，Qwen-14B的表现显著优于其他相同规模的开源模型，甚至在某些指标上与更大尺寸的模型相比也表现不俗。具体的评测结果显示出其在各项任务中拥有卓越的性能优势。
全面的词表覆盖
Qwen-14B使用了一个超过15万个token的词表，这比目前多数以中英文为主的词表要全面得多。这一词表对多语言更加友好，使得用户在不扩展词表的情况下可以直接增强某些语言的能力。

模型结构

Qwen-14B的模型结构采用了当今流行的一些方法论，如RoPE相对位置编码、SwiGLU激活函数和RMSNorm等。分词器方面，Qwen-14B采用基于tiktoken的分词器，使得其在中英文及代码的高效编码解码方面表现优异，同时对多语言也有很好的适应性。

评测效果

在评估中，Qwen-14B参加了多个热门基准测试，如MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH、CMMLU等。这些测试涵盖了模型在中文和英文知识、翻译能力、数学推理、代码生成等方面的能力。从评测结果来看，Qwen-14B在所有任务上均优于同级别的开源模型。

部署要求

要运行Qwen-14B，建议使用Python 3.8及以上版本，PyTorch 1.12及以上版本，CUDA 11.4及以上版本（适用于GPU用户）。需要使用pip安装多个依赖库，包括transformers、accelerate、tiktoken等。此外，推荐安装flash-attention库以提升效率。