热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#低比特量化
T-MAC
T-MAC是一个创新的内核库,采用查找表技术实现混合精度矩阵乘法,无需反量化即可加速CPU上的低比特LLM推理。该框架支持多种低比特模型,包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16和BitNet的W1(.58)A8。T-MAC在多种设备上展现出显著性能提升,例如在Surface Laptop 7上,单核处理速度可达20 tokens/s,四核可达48 tokens/s,比llama.cpp快4~5倍。
Awesome-Quantization-Papers
Awesome-Quantization-Papers是一个全面的深度学习模型量化研究论文列表,涵盖AI会议、期刊和arXiv上的最新成果。项目根据模型结构和应用场景进行分类,重点关注Transformer和CNN在视觉、语言处理等领域的量化方法。通过定期更新,为研究人员提供模型量化领域的最新进展。
相关文章
T-MAC: 为边缘设备打造的低比特LLM部署神器
2 个月前
量化技术在深度学习中的应用与发展:Awesome-Quantization-Papers项目解析
2 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号