OLMo-1B-0724-hf - Dolma数据集驱动的英语语言模型在性能上的进步

OLMo-1B-0724-hf项目简介

项目背景

OLMo 1B July 2024是由Allen Institute for AI开发的开源语言模型，这个模型与其前版本相比，HellSwag评估分数提高了4.4分。在模型训练过程中，使用了改进版本的Dolma数据集进行分阶段训练，并且此版本支持与HuggingFace Transformers v4.40及以上版本直接使用。

项目目标

OLMo系列的目标是促进语言模型的科学研究。为了支持这一目标，项目团队公开了所有相关代码、检查点、日志及训练详细信息。

模型详情

OLMo 1B July 2024模型包含以下核心特性：

模型参数： 训练使用了3.05万亿个标记、包含16层的神经网络，隐藏层大小为2048，注意力头数量为16，语境长度为4096。
语言： 仅支持英语。

使用情况

推理使用
使用者可以通过安装Transformers库，并从HuggingFace获取预训练模型后进行语言生成推理，以下是简单使用代码示例：

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-1B-0724-hf")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-1B-0724-hf")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])

微调
用户可以选择使用OLMo官方提供的脚本进行模型微调，也可以在AI2的Open Instruct库中进行更深入的微调。