#伪人AI

Mythalion-13B-AWQ - 利用高效的低比特量化提升Transformer推理速度

Github开源项目文本生成模型量化Huggingface模型整合Mythalion 13B伪人AI

该项目提供高效的AWQ模型文件，支持4比特量化在多用户环境中实现快速Transformer推理。虽然未量化模型的整体吞吐量更高，但通过使用更小的GPU，AWQ模型显著降低了部署成本，例如仅需1台48GB GPU即可运行70B模型。该模型适合需要高吞吐量并行推理的场景，用户可借助vLLM或AutoAWQ轻松调用以降低成本并简化部署。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号