Project Icon

Qwen2-57B-A14B-Instruct

新一代指令优化语言模型Qwen2的潜力

Qwen2-57B-A14B-Instruct是Qwen2系列中采用指令优化的语言模型,包含57亿参数。作为Mixture-of-Experts模型之一,它在多个基准测试中超越了多数开源和私有模型,包括语言理解、生成、多语言处理、编程、数学和推理能力。此模型支持处理长达65,536个tokens,适合解析长文本,依托先进的Transformer架构,并具备多语种适应能力的改进tokenizer。

Qwen2-57B-A14B-Instruct项目介绍

项目概述

Qwen2系列是最新的Qwen大语言模型系列。在Qwen2中,发布了一系列基础语言模型和经过指令微调的语言模型,其参数规模从0.5亿到72亿不等,其中还包括一个专家混合(Mixture-of-Experts)模型。这个库中包含了经过指令微调的57B-A14B专家混合Qwen2模型。

相较于其他最先进的开源语言模型,包括之前发布的Qwen1.5,Qwen2在多个基准测试中表现出色,无论是在语言理解、语言生成、多语言能力、编码、数学、推理等方面都显示出了竞争力。Qwen2-57B-A14B-Instruct支持长度最多达65,536个token的上下文处理,能处理庞大的输入。

模型详情

Qwen2是一个语言模型系列,涵盖了不同规模的解码器语言模型。对于每种规模,都会发布基础语言模型和对齐的对话模型。模型基于Transformer架构,具有SwiGLU激活、注意力QKV偏置、分组查询注意力等特性。此外,还蕴含了一种适应多种自然语言和代码的改进型分词器。

训练细节

这些模型经过大量数据的预训练,通过监督微调和直接偏好优化进行了后续训练,以确保模型性能。

系统要求

Qwen2MoE模型代码已包含在最新的Hugging Face transformers库中,建议安装transformers>=4.40.0,以避免出现KeyError: 'qwen2_moe'的错误。

快速启动

以下是使用apply_chat_template加载分词器、模型并生成内容的代码示例:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen2-57B-A14B-Instruct",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-57B-A14B-Instruct")

prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

处理长文本

为了处理超过32,768个token的输入,我们利用了YARN技术以提高模型的长度扩展能力,确保在处理较长文本时性能最优。

部署时,我们推荐使用vLLM,通过以下步骤启用长上下文支持:

  1. 安装vLLM:确保从vLLM的主分支获取最新版本。
  2. 配置模型设置:下载模型权重后,修改config.json文件,添加如下片段:
        {
            "architectures": [
                "Qwen2MoeForCausalLM"
            ],
            // ...
            "vocab_size": 152064,
    
            // 添加以下片段
            "rope_scaling": {
                "factor": 2.0,
                "original_max_position_embeddings": 32768,
                "type": "yarn"
            }
        }
    
  3. 模型部署:利用vLLM来部署模型。例如,可以使用如下命令设置一个类似OpenAI的服务器:
    python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2-57B-A14B-Instruct --model path/to/weights
    

评估

我们将Qwen2-57B-A14B-Instruct与类似规模的指令微调LLM进行了简单比较,结果如下:

数据集Mixtral-8x7B-Instruct-v0.1Yi-1.5-34B-ChatQwen1.5-32B-ChatQwen2-57B-A14B-Instruct
架构MoEDenseDenseMoE
激活参数12B34B32B14B
总参数量47B34B32B57B
英语
MMLU71.476.874.875.4
MMLU-Pro43.352.346.452.8
GPQA--30.834.3
TheroemQA--30.933.1
MT-Bench8.308.508.308.55
编码
HumanEval45.175.268.379.9
MBPP59.574.667.970.9
MultiPL-E--50.766.4
EvalPlus48.5-63.671.6
LiveCodeBench12.3-15.225.5
数学
GSM8K65.790.283.679.6
MATH30.750.142.449.1
汉语
C-Eval--76.780.5
AlignBench5.707.207.197.36

引用

如果您觉得我们的工作有帮助,请随时引用我们。

@article{qwen2,
  title={Qwen2 Technical Report},
  year={2024}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号