mini-magnum-12b-v1.1-iMat-GGUF

mini-magnum-12b-v1.1-iMat-GGUF项目介绍

mini-magnum-12b-v1.1-iMat-GGUF是一个基于intervitens/mini-magnum-12b-v1.1模型量化而来的项目。该项目由InferenceIllusionist完成量化，采用了transformers库，并使用了iMat、gguf和Mistral等相关技术。

项目特点

量化方法：该项目使用了iMatrix量化技术，这是一种先进的量化方法，可以在保持模型性能的同时大幅减小模型体积。
文件格式：项目提供了GGUF格式的量化模型文件，这种格式在llama.cpp等推理框架中得到了广泛支持。
性能参考：项目提供了KL散度参考图表，用于比较不同量化精度下模型的性能表现。
兼容性：该项目已经在llama.cpp、text-generation-web-ui (Ooba)和Kobold.cpp等常用推理框架中进行了测试，确保了良好的兼容性。

使用建议

内存管理：如果遇到"cudaMalloc failed: out of memory"错误，可以尝试在llama.cpp中设置较低的上下文长度，例如使用"-c 8192"参数将上下文长度设置为8k。
性能优化：对于Ampere及更新一代的GPU，可以使用闪存注意力（Flash Attention）来提高性能，使用"-fa"参数即可启用。
显存优化：在启用闪存注意力的情况下，还可以使用量化缓存来节省显存，例如使用"-ctk q8_0 -ctv q8_0"参数启用8位量化缓存。