热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#CPU加速
T-MAC - 优化低比特量化LLM推理的CPU加速框架
T-MAC
低比特量化
CPU加速
LLM推理
矩阵乘法
Github
开源项目
T-MAC是一个创新的内核库,采用查找表技术实现混合精度矩阵乘法,无需反量化即可加速CPU上的低比特LLM推理。该框架支持多种低比特模型,包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16和BitNet的W1(.58)A8。T-MAC在多种设备上展现出显著性能提升,例如在Surface Laptop 7上,单核处理速度可达20 tokens/s,四核可达48 tokens/s,比llama.cpp快4~5倍。
1
1
相关文章
T-MAC: 为边缘设备打造的低比特LLM部署神器
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号