OLMo-1B-0724-hf项目简介
项目背景
OLMo 1B July 2024是由Allen Institute for AI开发的开源语言模型,这个模型与其前版本相比,HellSwag评估分数提高了4.4分。在模型训练过程中,使用了改进版本的Dolma数据集进行分阶段训练,并且此版本支持与HuggingFace Transformers v4.40及以上版本直接使用。
项目目标
OLMo系列的目标是促进语言模型的科学研究。为了支持这一目标,项目团队公开了所有相关代码、检查点、日志及训练详细信息。
模型详情
OLMo 1B July 2024模型包含以下核心特性:
- 模型参数: 训练使用了3.05万亿个标记、包含16层的神经网络,隐藏层大小为2048,注意力头数量为16,语境长度为4096。
- 语言: 仅支持英语。
使用情况
推理使用
使用者可以通过安装Transformers库,并从HuggingFace获取预训练模型后进行语言生成推理,以下是简单使用代码示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-1B-0724-hf")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-1B-0724-hf")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
微调
用户可以选择使用OLMo官方提供的脚本进行模型微调,也可以在AI2的Open Instruct库中进行更深入的微调。
评价
OLMo 1B July 2024在多个任务上进行了评估,其中包括arc挑战、boolq、copa等,其性能在各项测试中有一定的提升。例如,在Hellaswag测试中,OLMo-1B相较于一些竞品取得了更高的分数。
环境影响
OLMo 7B模型在训练过程中使用了LUMI超级计算机上的MI250X GPU及MosaicML提供的A100-40GB GPU。有关碳排放和功耗的详细信息可在相关论文中查阅。
潜在的偏见、风险与限制
OLMo模型可能会在特定输入情况下生成有害或敏感的内容。未经过滤的输出,特别是关于偏见的输出,也需要谨慎使用。此外,生成内容的事实准确性可能不高,需进行进一步核实。
联系方式
技术问题可通过 olmo at allenai dot org
联系,媒体和公关事务可通过 press at allenai dot org
联系。
进一步阅读和资源
希望以上信息能够帮助您全面了解OLMo-1B-0724-hf项目。