热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#量化策略
Meta-Llama-3.1-8B-Instruct-FP8-KV - FP8量化策略提升模型计算效率
Quark
Meta-Llama-3.1-8B-Instruct
开源项目
FP8
Github
Huggingface
模型
部署
量化策略
项目利用Quark工具对模型的线性层进行FP8量化,实现更高效的部署和轻微的推理性能提升。使用Pile数据集进行校准,提高模型性能。支持单GPU和多GPU环境,便于在vLLM兼容后端进行高效部署,Perplexity指标略有提升。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号