项目介绍:Mistral-Nemo-Instruct-2407-GGUF
背景信息
Mistral-Nemo-Instruct-2407-GGUF项目是由mistralai开发,Second State Inc.负责量化的一个机器学习模型项目。该模型使用了Apache-2.0许可证,保证了开放和共享。同时,这一项目支持多国语言,包括英文、法文、德文、西班牙文、意大利文、葡萄牙文、俄文、中文和日文,展现了其在全球化应用中的潜力。
原始模型
Mistral-Nemo-Instruct-2407-GGUF的基础模型来自mistralai/Mistral-Nemo-Instruct-2407,这是一个在文本指令上具有强大能力的模型。
与LlamaEdge的结合
项目可以通过LlamaEdge平台运行。LlamaEdge是一个高效的推理平台,此模型使用的是版本v0.12.4。此外,该模型提供了示例提示模板(prompt template),用户可以根据模板设置进行定制化操作。
-
提示模板类型:
mistral-instruct
-
提示字符串格式:
<s>[INST] {user_message_1} [/INST]{assistant_message_1}</s>[INST] {user_message_2} [/INST]{assistant_message_2}</s>
用户可以使用WasmEdge命令来运行该模型的服务或命令行应用。具体操作可以通过以下命令实现:
-
作为LlamaEdge服务运行:
wasmedge --dir .:. --nn-preload default:GGML:AUTO:Mistral-Nemo-Instruct-2407-Q5_K_M.gguf \ llama-api-server.wasm \ --prompt-template mistral-instruct \ --ctx-size 128000 \ --model-name Mistral-Nemo-Instruct-2407
-
作为LlamaEdge命令应用运行:
wasmedge --dir .:. --nn-preload default:GGML:AUTO:Mistral-Nemo-Instruct-2407-Q5_K_M.gguf \ llama-chat.wasm \ --prompt-template mistral-instruct \ --ctx-size 128000
量化的GGUF模型
Mistral-Nemo-Instruct-2407-GGUF提供了多种量化后的模型格式,方便在不同场景下使用。量化后的模型显示了在性能和质量上的不同折衷。
- Q2_K:最小,质量损失显著,不推荐使用
- Q3系列:较小到非常小的版本,有不同程度的质量损失
- Q4系列:继承版本,质量中等,推荐使用Q4_K_M
- Q5系列:较大,质量损失小,其中Q5_K_M和Q5_K_S为推荐版本
- Q6_K和Q8_0:非常大,质量损失极低,其中Q8_0不推荐使用
- f16:质量最佳,占用24.5 GB
这些量化模型经过llama.cpp b3438处理,用户可以根据具体应用需求选择适合的版本。
Mistral-Nemo-Instruct-2407-GGUF项目通过上述多种量化模型和与LlamaEdge的结合应用,提供了强大灵活的应用选项,适合科研、开发及生产环境部署,同时支持多国语言,显著提升了用户操作的便利性和灵活性。