#FP8量化
AutoFP8 - 量化库优化大语言模型推理性能
Github开源项目神经网络模型压缩vLLMAutoFP8FP8量化
AutoFP8是一个开源FP8量化库,用于生成vLLM兼容的压缩检查点。它提供FP8_E4M3精度的量化权重、激活和KV缓存比例,支持静态和动态激活方案。AutoFP8能将预训练模型转换为FP8格式,与vLLM无缝集成,提高大语言模型推理效率,同时保持模型精度。这个工具适用于优化和部署大规模语言模型。
Meta-Llama-3-8B-Instruct-FP8 - FP8量化版Meta Llama 3实现内存占用减半
Github开源项目大语言模型模型模型优化vLLMHuggingfaceFP8量化Meta-Llama-3
这是一个通过8位浮点(FP8)量化技术优化的Meta Llama 3模型,在仅占用原模型一半存储空间和GPU内存的同时,保持了99.28%的性能水平。模型基于vLLM后端运行,支持英语对话场景下的商业及研究应用,可用于构建AI助手等应用。