热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#静态键值缓存
GPTFast - Hugging Face Transformers模型推理加速工具
GPTFast
推理加速
Hugging Face
静态键值缓存
量化
Github
开源项目
GPTFast是一个为Hugging Face Transformers模型优化推理速度的开源Python库。它集成了多种加速技术,如静态键值缓存、int4量化和推测解码,可将模型推理速度提升7.6-9倍。GPTFast支持torch.compile、int8量化、GPTQ int4量化等优化方法,通过简单的API调用即可应用于各类Hugging Face模型。该项目持续更新,未来计划引入更多先进的加速技术。
1
1
相关文章
GPTFast:加速Hugging Face Transformers模型推理的高效解决方案
3 个月前
GPTFast:加速Hugging Face Transformers模型推理的强大工具
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号