llama2_xs_460M_experimental项目介绍
项目背景
llama2_xs_460M_experimental是一款基于Meta AI的LLaMA和LLaMA 2大型语言模型的开源复现项目。该项目的目标是提供一种规模缩减版本的LLaMA模型,达到更便捷的实验和研究目的。具体来说,该实验版本是在小规模(“xs”代表“超小”)模型参数下进行的,实现了460M参数的模型版本。
数据集和文本标记
此项目中的模型训练使用了RedPajama数据集的部分内容,并采用了GPT2Tokenizer进行文本标记。这个数据集和标记方法有效地支持了模型的训练和推理。
使用指南
llama2_xs_460M_experimental模型可以通过HuggingFace的Transformers库直接加载使用。以下是使用Python代码加载并生成文本的简单示例:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = 'ahxt/llama2_xs_460M_experimental'
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.eval()
prompt = 'Q: What is the largest bird?\nA:'
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
tokens = model.generate(input_ids, max_length=20)
print(tokenizer.decode(tokens[0].tolist(), skip_special_tokens=True))
模型评估
该实验版本的模型在MMLU任务上进行了评估,并与其他几个不同参数量级的模型进行了对比。以下是各模型的评估结果:
模型 | 参数数量 | 零样本 | 5-样本 |
---|---|---|---|
llama | 7B | 28.46 | 35.05 |
openllama | 3B | 24.90 | 26.71 |
TinyLlama-1.1B-step-50K-105b | 1.1B | 19.00 | 26.53 |
llama2_xs_460M | 0.46B | 21.13 | 26.39 |
详细评估结果
在Open LLM评估排行榜中的详细结果可以在此链接中找到。以下是关于该模型的详细评估结果:
评估指标 | 值 |
---|---|
平均分 | 26.65 |
ARC (25-shot) | 24.91 |
HellaSwag (10-shot) | 38.47 |
MMLU (5-shot) | 26.17 |
TruthfulQA (0-shot) | 41.59 |
Winogrande (5-shot) | 49.88 |
GSM8K (5-shot) | 0.0 |
DROP (3-shot) | 5.51 |
项目开发者
该实验版本由德克萨斯农工大学的Xiaotian Han开发,仅用作研究目的。更多信息可以通过访问开发者的个人主页了解。