热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#多用户服务器
TinyLlama-1.1B-Chat-v0.3-AWQ - 高效量化方法助力多用户场景下的快速推理
Github
开源项目
推理效率
模型
Huggingface
TinyLlama
低比特量化
多用户服务器
该项目采用AWQ低位量化方法,提高了多用户服务器场景下的Transformers推理速度和效率。相比GPTQ,AWQ在减少部署成本的同时,能够使用更小的GPU进行推理。TinyLlama模型支持4-bit量化,并兼容vLLM与Huggingface TGI插件,高效应对高并发需求。在Zhang Peiyuan的开发下,该模型适合计算和内存资源有限的开源项目部署。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号