#量化策略

Meta-Llama-3.1-8B-Instruct-FP8-KV - FP8量化策略提升模型计算效率

QuarkMeta-Llama-3.1-8B-Instruct开源项目FP8GithubHuggingface模型部署量化策略

项目利用Quark工具对模型的线性层进行FP8量化，实现更高效的部署和轻微的推理性能提升。使用Pile数据集进行校准，提高模型性能。支持单GPU和多GPU环境，便于在vLLM兼容后端进行高效部署，Perplexity指标略有提升。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号