项目概述
这是一个Phi-3.5-mini-instruct模型的量化版本(GGUF格式)项目。该项目基于Microsoft的Phi-3.5-mini-instruct模型,使用llama.cpp工具进行量化处理,提供了多种不同精度的量化版本,以适应不同的硬件环境和应用场景。
主要特点
- 使用imatrix选项进行量化处理
- 支持在LM Studio等平台上运行
- 提供多种量化精度版本,从f32到IQ2_M不等
- 文件大小从15.29GB到1.32GB不等
- 适配不同的硬件平台,包括CPU、GPU和ARM芯片
模型使用说明
模型采用以下prompt格式:
<|system|> {system_prompt}<|end|><|user|> {prompt}<|end|><|assistant|>
模型版本选择指南
根据用户的硬件配置,可以选择不同的量化版本:
- 追求最高质量:选择Q8_0或Q6_K_L版本
- 平衡性能与质量:推荐使用Q5_K系列或Q4_K系列
- 低内存环境:可以使用Q3_K系列或IQ系列
- ARM设备:建议使用专门优化的Q4_0_X_X系列
下载方式
提供两种下载方式:
- 直接从Hugging Face仓库下载所需文件
- 使用huggingface-cli命令行工具下载:
pip install -U "huggingface_hub[cli]"
huggingface-cli download bartowski/Phi-3.5-mini-instruct-GGUF --include "文件名" --local-dir ./
性能建议
- GPU用户建议选择比显存小1-2GB的模型文件
- 系统总内存(RAM+VRAM)要比模型文件大1-2GB以上
- Nvidia或AMD显卡用户在使用Q4以下量化版本时,建议考虑IQ系列
- ROCm和Vulkan用户需要注意选择兼容的版本
特殊说明
部分量化版本(如Q3_K_XL, Q4_K_L等)使用Q8_0来量化嵌入层和输出权重,可能在某些场景下提供更好的性能表现。用户可以根据具体应用场景选择合适的版本进行测试。