OLMo-7B 项目简介
OLMo-7B是一系列开放语言模型中的一员,由AI领域的知名机构艾伦研究所(AI2)开发。该项目旨在推进语言模型的科学研究。OLMo-7B等模型使用来自Dolma数据集进行训练,所有代码、模型检查点、日志(即将上线)及训练细节均对外开放。
模型详情
OLMo系列核心模型具有以下特征:
大小 | 训练词元数 | 层数 | 隐藏层大小 | 注意力头数 | 上下文长度 |
---|---|---|---|---|---|
OLMo 1B | 3 trillion | 16 | 2048 | 16 | 2048 |
OLMo 7B | 2.5 trillion | 32 | 4096 | 32 | 2048 |
OLMo 7B Twin 2T | 2 trillion | 32 | 4096 | 32 | 2048 |
训练修订
我们为这些模型发布了许多检查点,每1000个训练步骤一发布。在7B模型中,我们重点关注以下四个版本:
名称 | 仓库链接 | 模型修订 | 词元数 | 说明 |
---|---|---|---|---|
OLMo 7B | allenai/OLMo-7B | main | 2.5T | 基础模型 |
OLMo 7B (未退火) | 链接 | step556000-tokens2460B | 2.5T | 学习率未降至0 |
OLMo 7B-2T | 链接 | step452000-tokens2000B | 2T | 2T词元的检查点 |
OLMo-7B-Twin-2T | 链接 | main | 2T | 在不同硬件上的双版本 |
模型描述
OLMo-7B是由艾伦研究所为AI(AI2)开发,得到Databricks、哈佛大学Kempner研究所、AMD、CSC(Lumi超级计算机)、华盛顿大学等支持的自回归Transformer风格语言模型。该模型主要用于英语自然语言处理任务,以Apache 2.0许可证下发布。
用途
推理
在安装相关软件包后,用户可以轻松进行推理,并利用量化技术加速推理过程。该模型适合快速语言建模任务,具备响应自然语言生成的能力。
微调
用户可根据需求对模型进行微调。微调可以从最终检查点或中间检查点进行,提供多种微调方案以满足不同实验需求。
评估
OLMo 7B在多项基准任务上的表现与一些知名模型如Llama 7B、Falcon 7B及MPT 7B相比,展现了不俗的性能表现,尤其在任务Copa中取得了优异的结果。
环境影响
OLMo 7B在训练过程中使用了LUMI超级计算机的MI250X GPU和MosaicML的A100-40GB GPU,并对模型的碳排放进行了详细记录,致力于最小化环境影响。
偏见、风险与限制
与其他模型类似,未经安全过滤的基础语言模型可能容易生成敏感和有害内容。因此,建议用户在使用时考虑潜在风险,并对生成内容进行核实。此外,许多生成的“事实”可能并不准确,需要加以验证。
引用
如果您使用了OLMo模型,我们鼓励您按以下方式引用:
@article{Groeneveld2023OLMo,
title={OLMo: Accelerating the Science of Language Models},
author={Groeneveld, Dirk and Beltagy, Iz et al.},
journal={Preprint},
year={2024}
}