热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-70B-Instruct-FP8-KV - Meta-Llama-3.1的FP8量化方法实现高效部署
Github
开源项目
模型
推理
量化
Huggingface
FP8
Meta-Llama-3.1-70B-Instruct
Quark
项目使用Quark对Meta-Llama-3.1模型进行FP8量化,优化了线性层(不含lm_head)的权重和激活过程。支持用户在单或多GPU平台上部署并在vLLM兼容平台上高效运行。尽管伪量化评估结果可能与实际推理精确度略有不同,但仍提供关键指标,助力模型开发与优化。通过FP8对称模式的应用,模型性能得到提升,并提供了准确性的参考标准,为后续模型开发提供支持。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号