Ministral-8B-Instruct-2410 - 多功能高效语言模型，兼具多语言和代码处理能力

Ministral-8B-Instruct-2410项目介绍

Ministral-8B-Instruct-2410是一个由Mistral AI推出的语言模型项目，旨在提升本地智能的性能，为设备端和边缘计算场景提供服务。该项目包括两款顶尖的模型，即Ministral 3B和Ministral 8B。这两款模型基于高级训练技术，具备多种语言和编码能力，适用于不同的研究和应用场合。

项目背景

Ministral-8B-Instruct-2410的模型由Mistral AI在Mistral Research License（研究许可）的指导下发布，该许可主要允许模型在非商业的研究目的下使用。感兴趣的用户可联系Mistral AI获取商业许可。

Ministral 8B 核心特性

许可类型: Mistral Research License
训练方法: 使用128k上下文窗口与交错滑动窗口注意力机制训练
多语言与编码数据: 广泛训练于多语言及代码数据集之上
支持功能调用
词汇量: 131k，使用V3-Tekken分词器

基本指令模板 (V3-Tekken)

<s>[INST]用户消息[/INST]助手回复</s>[INST]新用户消息[/INST]

Ministral 8B 模型架构

特性	值
架构	密集型Transformer
参数数量	8,019,808,256
层数	36
头数	32
维度	4096
KV头(GQA)	8
隐藏层维度	12288
头维度	128
词汇表大小	131,072
上下文长度	128k
注意力模式	不规则 (128k,32k,32k,32k)

性能基准

基础模型

知识与常识

模型	MMLU	AGIEval	Winogrande	Arc-c	TriviaQA
Mistral 7B Base	62.5	42.5	74.2	67.9	62.5
Llama 3.1 8B Base	64.7	44.4	74.6	46.0	60.2
Ministral 8B Base	65.0	48.3	75.3	71.9	65.5

编程与数学

模型	HumanEval pass@1	GSM8K maj@8
Mistral 7B Base	26.8	32.0
Llama 3.1 8B Base	37.8	42.2
Ministral 8B Base	34.8	64.5

多语言能力

模型	法语 MMLU	德语 MMLU	西班牙语 MMLU
Mistral 7B Base	50.6	49.6	51.4
Llama 3.1 8B Base	50.8	52.8	54.6
Ministral 8B Base	57.5	57.4	59.6

指令模型

聊天/竞技场 (gpt-4o评估)

模型	MTBench	Arena Hard	Wild bench
Mistral 7B Instruct v0.3	6.7	44.3	33.1
Llama 3.1 8B Instruct	7.5	62.4	37.0
Ministral 8B Instruct	8.3	70.9	41.3

编程与数学

模型	MBPP pass@1	HumanEval pass@1	Math maj@1
Mistral 7B Instruct v0.3	50.2	38.4	13.2
Llama 3.1 8B Instruct	69.7	67.1	49.3
Ministral 8B Instruct	70.0	76.8	54.5

Ministral-8B-Instruct-2410项目为语言模型的研究和开发提供了新的标准，其强大的性能表现在多个测试基准上均有领先优势。此外，其适应广泛多语言应用及强大的编码能力，进一步增强了其在研究和开发中的应用潜力。