gemma-1.1-2b-it-GPTQ - 基于Gemma开发的轻量级量化模型实现本地高效部署

gemma-1.1-2b-it-GPTQ项目介绍

项目概述

gemma-1.1-2b-it-GPTQ是Google开发的Gemma语言模型家族中的一个重要成员。这是一个经过指令微调的2B参数模型,并使用GPTQ量化技术进行了优化。该项目旨在为开发者和研究人员提供一个轻量级但功能强大的语言模型,可以在资源受限的环境中部署和使用。

模型特点

模型类型:基于Transformer架构的文本到文本生成模型
参数规模:2B(20亿)参数
训练数据:涵盖网页文档、代码、数学等多样化数据,总量达6万亿个token
语言:英语
特色:经过指令微调,适合对话和指令遵循任务
量化:使用GPTQ技术进行量化,减小模型体积,提高推理速度

性能与能力

gemma-1.1-2b-it-GPTQ在多项基准测试中展现了不俗的性能:

MMLU(5-shot):42.3分
HellaSwag(0-shot):71.4分
PIQA(0-shot):77.3分
HumanEval(pass@1):22.0分

该模型适用于多种文本生成任务,包括:

问答
文本摘要
推理
代码生成
数学问题求解

使用方法

开发者可以通过Hugging Face Transformers库轻松使用该模型:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/gemma-1.1-2b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-1.1-2b-it",
    torch_dtype=torch.bfloat16
)

input_text = "写一首关于机器学习的诗。"
input_ids = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**input_ids, max_new_tokens=50)
print(tokenizer.decode(outputs[0]))