#FP8量化
AutoFP8 - 量化库优化大语言模型推理性能
AutoFP8FP8量化vLLM模型压缩神经网络Github开源项目
AutoFP8是一个开源FP8量化库,用于生成vLLM兼容的压缩检查点。它提供FP8_E4M3精度的量化权重、激活和KV缓存比例,支持静态和动态激活方案。AutoFP8能将预训练模型转换为FP8格式,与vLLM无缝集成,提高大语言模型推理效率,同时保持模型精度。这个工具适用于优化和部署大规模语言模型。
Meta-Llama-3.1-8B-Instruct-FP8 - FP8量化优化的多语言AI助手模型
Meta-Llama-3.1Huggingface模型FP8量化Github开源项目自然语言处理神经魔法vLLM
Meta-Llama-3.1-8B-Instruct-FP8是Meta-Llama-3.1-8B-Instruct的FP8量化版本。该模型将参数位数从16位减少到8位,在保持99.52%性能的同时,显著降低了存储和计算资源需求。支持vLLM后端部署,适用于多语言对话任务,可用于商业和研究用途。
Meta-Llama-3.1-70B-Instruct-FP8 - Meta-Llama-3.1-70B模型的FP8量化版本 提升效率降低资源需求
语言模型Huggingface模型FP8量化人工智能Github开源项目vLLMMeta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-70B-Instruct模型的FP8量化版本,通过将权重和激活量化为8位浮点数,大幅降低了模型体积和GPU内存需求。支持多语言商业和研究应用,在OpenLLM基准测试中平均得分84.29,性能接近原始模型。可通过vLLM后端高效部署,适用于智能对话等多种场景。
Meta-Llama-3-8B-Instruct-FP8 - FP8量化版Meta Llama 3实现内存占用减半
模型优化FP8量化vLLM模型Github开源项目Meta-Llama-3大语言模型Huggingface
这是一个通过8位浮点(FP8)量化技术优化的Meta Llama 3模型,在仅占用原模型一半存储空间和GPU内存的同时,保持了99.28%的性能水平。模型基于vLLM后端运行,支持英语对话场景下的商业及研究应用,可用于构建AI助手等应用。