CodeGemma-1.1-7b-it-GGUF项目介绍
项目概述
CodeGemma-1.1-7b-it-GGUF是一个代码生成项目,依托于Hugging Face上的一个强大模型,用于生成高质量的代码文本。该项目的使用需要用户先审核并同意Google的使用许可协议。用户可以通过登录Hugging Face来获取访问权限,并立刻开始使用。
模型量化
项目中采用了Llamacpp的imatrix进行模型量化。原始模型来自Hugging Face的Google CodeGemma。量化是通过imatrix选项实现的,使用Kalomaze提供的数据集进行进一步优化。
提示格式
在使用这个模型时,提示语格式非常重要:
<bos><start_of_turn>user
{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model
需要注意的是,该模型不支持系统提示语。
不同量化文件选择
用户可以根据不同的需求和硬件配置,选择合适的量化文件。资源限制较大的情况下,可以选择较小的量化文件,以保持性能与内存使用的平衡。例如,推荐的量化文件包括如Q5_K_M和IQ4_NL等,他们都被评为高质量。
示例:
- codegemma-1.1-7b-it-Q6_K.gguf:建议选择,质量非常高,文件大小为7.01GB。
- codegemma-1.1-7b-it-IQ4_XS.gguf:表现不错且文件较小,大小为4.76GB。
请根据您的RAM和VRAM选择合适的量化文件,以便在不同设备上获得最佳性能。
文件下载
用户可以使用huggingface-cli
来下载需要的量化文件:
-
确保已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
-
下载特定文件,如:
huggingface-cli download bartowski/codegemma-1.1-7b-it-GGUF --include "codegemma-1.1-7b-it-Q4_K_M.gguf" --local-dir ./
当模型文件大于50GB时,需要分成多个文件下载,以便优化下载速度并管理存储空间。
I-quant与K-quant的选择
依据用户需求和设备,你可以选择I系列量化或K系列量化:
- K-quant:简单易用,推荐如Q5_K_M。
- I-quant:适合低于Q4的设置,特别是使用Nvidia的cuBLAS或AMD的rocBLAS时。I-quant也可以在CPU和Apple设备上使用,但速度会比K-quant慢。
支持
如果你想支持该项目的发展,可以访问Bartowski的Ko-fi页面获取更多信息:Ko-fi页面。