项目介绍:zephyr-7b-beta-marlin
项目背景
zephyr-7b-beta-marlin项目是一个针对压缩大模型(LLM)进行高效推理的模型库。该项目的基模型是 zephyr-7b-beta,经过优化后,适用于nm-vllm,一种用于压缩大模型的高吞吐率推理引擎。zephyr-7b-beta-marlin模型已通过GPTQ进行量化,并保存为Marlin格式,从而实现高效的4比特推理性能。
推理功能
为了实现快速推理和低内存使用,用户可以安装nm-vllm:
pip install nm-vllm[sparse]
用户可以在Python环境中运行推理管道,使用如下代码进行本地推理:
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
model_id = "neuralmagic/zephyr-7b-beta-marlin"
model = LLM(model_id)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "user", "content": "What is quantization in maching learning?"},
]
formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
sampling_params = SamplingParams(max_tokens=200)
outputs = model.generate(formatted_prompt, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
量化过程
zephyr-7b-beta-marlin模型通过量化技术提升了推理效率。用户可以使用quantization/apply_gptq_save_marlin.py
脚本来了解如何进行模型量化并转化为Marlin格式:
pip install -r quantization/requirements.txt
python3 quantization/apply_gptq_save_marlin.py --model-id HuggingFaceH4/zephyr-7b-beta --save-dir ./zephyr-marlin
社区支持
为了获得更多的支持,与这些模型和AI相关的讨论,用户可以加入Neural Magic的Slack社区。这是一个与其他开发者分享和交流的良好平台。