项目概述
这是一个基于Meta-Llama-3模型的量化版本项目,名为Meta-Llama-3-8B-Instruct-quantized.w8a16。该项目由Neural Magic团队开发,于2024年7月2日发布,版本号为1.0。这是一个针对英语场景的商业和研究用途的语言模型,主要用于类似助手的聊天任务。
技术特点
该项目是对原始Meta-Llama-3-8B-Instruct模型的优化版本,主要采用了INT8权重量化技术。具体优化包括:
- 将模型参数的位数从16位降至8位,减少了约50%的磁盘空间和GPU内存需求
- 仅量化transformer块内的线性算子权重
- 采用对称的按通道量化方法
- 使用AutoGPTQ库进行量化,damping factor为1%,使用256序列的8,192个随机token
性能表现
在OpenLLM基准测试(版本1)中,该量化模型的平均得分为68.54,与原始未量化模型的68.69分相比,性能保持得非常好。在多项具体测试中:
- MMLU测试中达到66.55分
- ARC Challenge测试达到61.52分
- GSM-8K测试达到75.89分
- Hellaswag测试达到78.69分
- Winogrande测试达到76.01分
- TruthfulQA测试达到52.60分
部署使用
该模型支持两种主要的部署方式:
- 通过vLLM后端部署:支持高效部署和OpenAI兼容的服务
- 通过transformers框架使用:利用AutoGPTQ数据格式的集成实现
部署时可以根据需求选择单GPU或多GPU配置,支持常见的生成参数设置如temperature和top_p等。
使用限制
该项目具有以下使用限制:
- 仅支持英语语言场景
- 禁止违反适用法律法规(包括贸易合规法)的使用
- 需遵守Llama3许可证的相关规定