Behemoth-123B-v1-GGUF项目简介
Behemoth-123B-v1-GGUF项目是一个基于TheDrummer的原始模型Behemoth-123B-v1进行量化的文本生成项目。该项目使用了llama.cpp的b3878版本进行多种量化,以便更好地适应不同的硬件环境。量化工作由bartowski完成,并应用于多种场景,详情如下。
项目背景
项目的基础模型Behemoth-123B-v1可在Hugging Face平台上获取,经过量化后,这些模型可以用于文本生成任务。项目中使用的量化方法被称为"imatrix",并通过一个特别的数据集进行校准。
量化模型文件
项目提供了多种量化模型,依据量化类型、文件大小和适用性进行分类。以下是部分量化模型的详细信息:
- Behemoth-123B-v1-Q8_0: 极高质量,文件大小为130.28GB,适合需要最大精度的场景。
- Behemoth-123B-v1-Q6_K: 推荐使用,文件大小为100.59GB,质量非常高。
- Behemoth-123B-v1-Q4_K_M: 默认为大多数使用场景,文件大小为73.22GB,质量良好。
量化模型文件的选择应该依据用户的硬件配置以及性能需求进行,具体选择方法项目中有详细说明。
如何选择量化模型
选择适合的量化文件需考虑硬件配置,特别是RAM和/或VRAM的大小。如果要求运行速度快,可以选择全部加载至GPU VRAM的量化文件。若追求最高品质,可以将系统RAM和GPU VRAM容量相加,然后选择适合的量化文件。
此外,还需要在I-quant和K-quant之间做出选择。一般来说,K-quant类型更为通用且易于选择,而I-quant类型则在某些情况下性能更佳,但是对于某些硬件配置(例如AMD的Vulcan)并不兼容。
使用方法
用户需要安装hugginface-cli来从项目页面下载模型文件。对于超过50GB的模型文件,项目提供了分文件下载的方法。此外,ARM芯片的用户可利用特殊格式的量化文件获取速度优势。
贡献者致谢
项目感谢kalomaze和Dampf为imatrix校准数据集提供的帮助,以及ZeroWw在嵌入与输出方面的实验灵感。如果您希望支持项目开发,可以访问bartowski的ko-fi页面。