热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#伪人AI
Mythalion-13B-AWQ - 利用高效的低比特量化提升Transformer推理速度
Github
开源项目
文本生成
模型
量化
Huggingface
模型整合
Mythalion 13B
伪人AI
该项目提供高效的AWQ模型文件,支持4比特量化在多用户环境中实现快速Transformer推理。虽然未量化模型的整体吞吐量更高,但通过使用更小的GPU,AWQ模型显著降低了部署成本,例如仅需1台48GB GPU即可运行70B模型。该模型适合需要高吞吐量并行推理的场景,用户可借助vLLM或AutoAWQ轻松调用以降低成本并简化部署。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号