MPT-7B-Instruct项目介绍
概述
MPT-7B-Instruct是一个专门用于短篇指令任务的模型。它由MosaicML公司基于MPT-7B模型进行微调开发。微调过程中使用的数据集来源于Databricks Dolly-15k和Anthropic Helpful and Harmless (HH-RLHF)项目。该模型以Apache 2.0许可证发布,意味着它可以用于商业用途。
模型特点
MPT-7B-Instruct模型采用了经过修改的解码器转换器架构。具体来说,模型在标准的转换器架构上进行了以下改进:
- 使用了FlashAttention技术,提高了注意力机制的效率。
- 使用了线性偏置注意力(ALiBi),避免了位置嵌入。
- 去掉了偏置项,使得模型结构更加简化。
模型参数
- 参数数量:6.7亿
- 层数:32层
- 注意力头数:32个
- 模型维度:4096
- 词汇量:50432
- 序列长度:2048
训练数据与配置
MPT-7B-Instruct模型的预训练数据通过EleutherAI的gpt-neox-20b标记器进行标记。该模型在8块A100-40GB显卡上通过MosaicML平台训练约2.3小时,使用了FSDP分片数据并行技术和AdamW优化器。
使用方法
要使用MPT-7B-Instruct模型,需要通过transformers
库中的from_pretrained
方法加载,并设置trust_remote_code=True
以启用自定义模型架构选项。模型提供了许多训练效率选项,例如支持FlashAttention和ALiBi等。
import transformers
model = transformers.AutoModelForCausalLM.from_pretrained(
'mosaicml/mpt-7b-instruct',
trust_remote_code=True
)
注意事项
尽管该模型具备一定的生成能力,但可能会输出不准确的事实信息。因此,不宜将其用于需要高度准确性的任务。此外,因模型训练使用的公共数据集,可能会产生不当或偏见性内容。
致谢
MPT-7B-Instruct模型由Sam Havens和MosaicML自然语言处理团队完成微调工作。
相关资源
如果对在MosaicML平台上训练和部署类似的MPT或大型语言模型感兴趣,可访问MosaicML官方网站获取更多信息。
免责声明
此模型的许可证不构成法律建议。对于使用此模型的第三方行为,MosaicML公司不承担任何责任。在使用该模型进行商业活动之前,请咨询律师。
引用说明
如需引用本模型,请参考以下格式:
@online{MosaicML2023Introducing,
author = {MosaicML NLP Team},
title = {Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs},
year = {2023},
url = {www.mosaicml.com/blog/mpt-7b},
note = {Accessed: 2023-03-28}, % 修改此日期
urldate = {2023-03-28} % 修改此日期
}