Mistral-Small-Instruct-2409-bnb-4bit 项目介绍
项目背景
Mistral-Small-Instruct-2409-bnb-4bit 是一个经过特别调优的机器学习模型,具有独特的功能与高效的性能表现。该模型基于22亿参数,支持函数调用,具有长达128k的序列长度。该项目旨在提供更快更高效的模型部署解决方案,并支持多种模型的微调和推理任务。
产品功能
高效微调
该项目提供了一系列免费易用的Google Colab笔记本,用户只需要上传数据集并点击“全运行”,即可得到一个经过微调的模型,这些模型支持导出至GGUF、vLLM或者上传到Hugging Face。不同模型的性能表现如下:
- Llama-3.1 8b:速度提升2.4倍,内存节省58%
- Phi-3.5 (mini):速度提升2倍,内存节省50%
- Gemma-2 9b:速度提升2.4倍,内存节省58%
- Mistral 7b:速度提升2.2倍,内存节省62%
- TinyLlama:速度提升3.9倍,内存节省74%
- DPO - Zephyr:速度提升1.9倍,内存节省19%
使用示例
vLLM(推荐使用)
建议结合vLLM库来实现生产环境级别的推理管道。确保安装vLLM >= v0.6.1.post1
,并在控制台进行以下操作:
pip install --upgrade vllm
pip install --upgrade mistral_common
还可通过现成的docker 镜像快速上手。
离线使用
以下是一个简单的离线使用代码示例:
from vllm import LLM
from vllm.sampling_params import SamplingParams
model_name = "mistralai/Mistral-Small-Instruct-2409"
sampling_params = SamplingParams(max_tokens=8192)
llm = LLM(model=model_name, tokenizer_mode="mistral", config_format="mistral", load_format="mistral")
prompt = "How often does the letter r occur in Mistral?"
messages = [{"role": "user", "content": prompt}]
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
服务器模式
通过在服务器和客户端间建立连接,可以实现更高效的资源利用:
- 启动服务器:
vllm serve mistralai/Mistral-Small-Instruct-2409 --tokenizer_mode mistral --config_format mistral --load_format mistral
需要注意的是,运行Mistral-Small模型单个GPU至少需要44 GB的显存。如需分配至多设备,请添加参数 --tensor_parallel=2
。
- 客户端请求:
curl --location 'http://<your-node-url>:8000/v1/chat/completions' --header 'Content-Type: application/json' --header 'Authorization: Bearer token' --data '{ "model": "mistralai/Mistral-Small-Instruct-2409", "messages": [ { "role": "user", "content": "How often does the letter r occur in Mistral?" } ] }'
团队介绍
Mistral AI 团队由一群资深的AI和机器学习专家组成,成员包括Albert Jiang,Alexandre Sablayrolles,Alexis Tacnet,及其他众多出色的技术人员。他们致力于为高效和创新的人工智能解决方案的开发提供技术支持。