#低比特量化
相关项目
T-MAC
T-MAC是一个创新的内核库,采用查找表技术实现混合精度矩阵乘法,无需反量化即可加速CPU上的低比特LLM推理。该框架支持多种低比特模型,包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16和BitNet的W1(.58)A8。T-MAC在多种设备上展现出显著性能提升,例如在Surface Laptop 7上,单核处理速度可达20 tokens/s,四核可达48 tokens/s,比llama.cpp快4~5倍。
Awesome-Quantization-Papers
Awesome-Quantization-Papers是一个全面的深度学习模型量化研究论文列表,涵盖AI会议、期刊和arXiv上的最新成果。项目根据模型结构和应用场景进行分类,重点关注Transformer和CNN在视觉、语言处理等领域的量化方法。通过定期更新,为研究人员提供模型量化领域的最新进展。