Ministral-8B-Instruct-2410项目介绍
Ministral-8B-Instruct-2410是一个由Mistral AI推出的语言模型项目,旨在提升本地智能的性能,为设备端和边缘计算场景提供服务。该项目包括两款顶尖的模型,即Ministral 3B和Ministral 8B。这两款模型基于高级训练技术,具备多种语言和编码能力,适用于不同的研究和应用场合。
项目背景
Ministral-8B-Instruct-2410的模型由Mistral AI在Mistral Research License(研究许可)的指导下发布,该许可主要允许模型在非商业的研究目的下使用。感兴趣的用户可联系Mistral AI获取商业许可。
Ministral 8B 核心特性
- 许可类型: Mistral Research License
- 训练方法: 使用128k上下文窗口与交错滑动窗口注意力机制训练
- 多语言与编码数据: 广泛训练于多语言及代码数据集之上
- 支持功能调用
- 词汇量: 131k,使用V3-Tekken分词器
基本指令模板 (V3-Tekken)
<s>[INST]用户消息[/INST]助手回复</s>[INST]新用户消息[/INST]
Ministral 8B 模型架构
特性 | 值 |
---|---|
架构 | 密集型Transformer |
参数数量 | 8,019,808,256 |
层数 | 36 |
头数 | 32 |
维度 | 4096 |
KV头(GQA) | 8 |
隐藏层维度 | 12288 |
头维度 | 128 |
词汇表大小 | 131,072 |
上下文长度 | 128k |
注意力模式 | 不规则 (128k,32k,32k,32k) |
性能基准
基础模型
知识与常识
模型 | MMLU | AGIEval | Winogrande | Arc-c | TriviaQA |
---|---|---|---|---|---|
Mistral 7B Base | 62.5 | 42.5 | 74.2 | 67.9 | 62.5 |
Llama 3.1 8B Base | 64.7 | 44.4 | 74.6 | 46.0 | 60.2 |
Ministral 8B Base | 65.0 | 48.3 | 75.3 | 71.9 | 65.5 |
编程与数学
模型 | HumanEval pass@1 | GSM8K maj@8 |
---|---|---|
Mistral 7B Base | 26.8 | 32.0 |
Llama 3.1 8B Base | 37.8 | 42.2 |
Ministral 8B Base | 34.8 | 64.5 |
多语言能力
模型 | 法语 MMLU | 德语 MMLU | 西班牙语 MMLU |
---|---|---|---|
Mistral 7B Base | 50.6 | 49.6 | 51.4 |
Llama 3.1 8B Base | 50.8 | 52.8 | 54.6 |
Ministral 8B Base | 57.5 | 57.4 | 59.6 |
指令模型
聊天/竞技场 (gpt-4o评估)
模型 | MTBench | Arena Hard | Wild bench |
---|---|---|---|
Mistral 7B Instruct v0.3 | 6.7 | 44.3 | 33.1 |
Llama 3.1 8B Instruct | 7.5 | 62.4 | 37.0 |
Ministral 8B Instruct | 8.3 | 70.9 | 41.3 |
编程与数学
模型 | MBPP pass@1 | HumanEval pass@1 | Math maj@1 |
---|---|---|---|
Mistral 7B Instruct v0.3 | 50.2 | 38.4 | 13.2 |
Llama 3.1 8B Instruct | 69.7 | 67.1 | 49.3 |
Ministral 8B Instruct | 70.0 | 76.8 | 54.5 |
Ministral-8B-Instruct-2410项目为语言模型的研究和开发提供了新的标准,其强大的性能表现在多个测试基准上均有领先优势。此外,其适应广泛多语言应用及强大的编码能力,进一步增强了其在研究和开发中的应用潜力。