Yi-Coder-9B-Chat-GGUF项目介绍
Yi-Coder-9B-Chat-GGUF项目致力于通过量化技术优化文本生成模型Yi-Coder-9B-Chat。项目基于开源库transformers
,采用Apache 2.0许可证许可。其主要应用领域是文本生成。
项目背景
Yi-Coder-9B-Chat是一个庞大的文本生成模型,为了能够在更广泛的设备上运行,项目采用了Llamacpp的imatrix量化方法。这种方法能够在保证模型性能的前提下,大幅降低模型的大小,使其更便于部署。
模型量化与文件下载
项目提供了多种量化类型的模型文件,用户可以根据需要选择合适的文件进行下载。以下是一些重要的量化文件:
- Yi-Coder-9B-Chat-f16.gguf:完整的F16权重,文件大小为17.66GB。
- Yi-Coder-9B-Chat-Q8_0.gguf:高质量量化,文件大小为9.38GB。
- Yi-Coder-9B-Chat-Q6_K_L.gguf:推荐使用的高质量量化,文件大小为7.37GB。
- Yi-Coder-9B-Chat-Q4_K_M.gguf:适合普通用户的默认选项,节省空间,文件大小为5.33GB。
每种量化类型对应不同的文件大小和质量等级,用户可以根据自己的需求和设备配置选择适合的量化文件。更详细的量化文件信息和下载链接可以在项目页面找到。
运行环境及下载工具
用户可以在LM Studio中运行这些量化文件。在下载模型文件之前,需要先安装huggingface-cli
工具:
pip install -U "huggingface_hub[cli]"
然后使用如下命令下载所需的模型文件:
huggingface-cli download bartowski/Yi-Coder-9B-Chat-GGUF --include "Yi-Coder-9B-Chat-Q4_K_M.gguf" --local-dir ./
ARM优化
对于使用ARM芯片的用户,项目特别提供了Q4_0_X_X量化文件,这些文件经过优化可以在ARM设备上达到更高的运行速度。
量化文件选择指南
选择合适的量化文件主要依据设备的RAM和VRAM容量。一般来说:
- 文件的大小应该略小于总RAM和VRAM之和1-2GB。
- 优先选择更小的K-quant量化文件,例如Q5_K_M。
- 如果需要更深入的性能优化,可以参考I-quant量化。
项目提供了一个丰富的用户指南和性能图表帮助用户选择最合适的量化文件。
致谢
项目的成功离不开社区的贡献和支持,特别感谢kalomaze与Dampf协助创建imatrix校准数据集,以及ZeroWw给予项目在embed/output方面实验的灵感。