Phi-3-medium-128k-instruct-quantized.w8a16

Phi-3-medium-128k-instruct-quantized.w8a16项目介绍

模型概述

Phi-3-medium-128k-instruct-quantized.w8a16是Phi-3架构的一个智能文本生成模型，它的设计初衷是用于英语的商业和研究用途，特别是在助手类聊天中显得尤为出色。这个量化版本是由Phi-3-medium-128k-instruct模型优化而来，通过将权重量化为INT8数据类型，显著减少了存储空间和GPU内存需求。

模型优化

该模型通过量化技术将线性转化层的权重从16位减少到了8位，使用了GPTQ算法来实现这种重量化的过程。这种重量化方法能够将模型磁盘空间和内存占用减少大约50%，从而提高了部署效率。

部署方法

使用vLLM进行部署

vLLM是一个高效的部署工具，该项目提供了一段示例代码展示如何在两块GPU上进行部署，通过调整温度、token数量等参数，可以在特定场景下生成符合风格的输出。如在示例中，能生成海盗风格的对话。

使用Transformers进行部署

用户还可以使用Transformers库进行部署，示例代码展示了如何通过简单的几行代码就可以在Python环境下调用生成文本的功能，提供了对话生成的灵活选项。

模型创建

Phi-3-medium-128k-instruct-quantized.w8a16模型的创建是通过使用llm-compressor库实现的，将预训练模型的权重进行了量化调整。代码展示了如何通过量化模块和PIQ实现把Phi-3-medium-128k-instruct模型优化到新的量化版本。

模型评估

该模型在OpenLLM排名板任务中进行了详细的评估。评估结果显示，量化后的模型在多个基准测试中表现与未量化模型接近，比如在MMLU（5-shot）测试中实现了100.1%的恢复率，尽管少许指标稍逊色于原始未量化模型，整体表现依然优秀。

总结

Phi-3-medium-128k-instruct-quantized.w8a16通过重量化优化大大提高了使用和部署的效率，并且在性能上基本保持了原有模型的优势。这使得它成为一个在存储和计算资源受限情况下依然有效的解决方案，尤其适合用于英语的文本生成任务。它的开发者是来自Neural Magic团队，采用了MIT许可协议，便于开发者在商业和研究中灵活使用。