项目介绍
quantized-models是一个致力于收集和提供量化模型的项目,其目标是方便用户使用这些模型。量化模型通过减少模型参数的存储位数,能够有效提高模型在资源受限环境中的运行效率,比如在移动设备和嵌入式设备上运行复杂的机器学习任务。
量化模型来源
该项目中的一些模型由项目创建者本人进行量化,而其他模型则来自于多个社区和组织的贡献者。这些贡献者包括但不限于:
- GGUF:如TheBloke、ollama.ai/library、Undi95等。他们通过量化技术优化模型,使其在硬件上的执行效率更高。
- EXL2:由LoneStriker提供。
- HQQ+ (HQQ + LoRA adapter):由Mobius Labs GmbH贡献。
- SpinQuant:由Meta Llama分享。
- AWQ和GPTQ:目前已列入计划,未来会有贡献者提供这些量化模型。
应用场景
量化模型尤其适用于大型语言模型(large language model)和文本生成推理(text-generation-inference)任务。它们主要使用广泛流行的transformers库进行二次开发和应用,从而在降低计算成本和节省存储的同时,仍能够提供高效的文本生成能力。
免责声明
请注意,这些量化模型是“按原样”提供的,不包含任何形式的保证或担保。用户在使用这些模型时,应当自行负责遵循每个模型的相应许可证条款,并确保符合法律法规的要求。
quantized-models项目为开发者提供了一个集中化的平台,可以轻松获取和测试不同来源的量化模型,以便提高个人和团队的项目开发效率。通过这种开放的交流和共享,社区能够更加快速地发展和推广创新技术。