Project Icon

ModuleFormer

高效可扩展的模块化语言模型架构

ModuleFormer是一种新型MoE架构,结合棒断注意力头和前馈专家两种专家类型。通过稀疏激活,实现高效性、可扩展性和专业化。基于此架构的MoLM语言模型系列,参数规模40亿到80亿不等,在提高吞吐量的同时保持性能,易于扩展新知识和针对特定任务优化。MoLM在多项基准测试中展现出优秀的效率和性能。

ModuleFormer

ModuleFormer是一种基于MoE的架构,包含两种不同类型的专家:粘性断裂注意力头和前馈专家。在训练和推理过程中,不同的专家会根据输入token稀疏激活。 在我们的实验中,我们发现这种稀疏架构为大型预训练语言模型带来了三个重要能力:

  1. 效率,由于ModuleFormer只为每个输入token激活部分专家,因此它能以两倍以上的吞吐量达到与密集型大语言模型相同的性能;
  2. 可扩展性,ModuleFormer比密集型大语言模型更不易发生灾难性遗忘,可以轻松通过添加新专家来学习训练数据中未包含的新知识;
  3. 专门化,微调ModuleFormer可以使部分专家专门适应微调任务,而与任务无关的专家可以轻松剪枝以实现轻量级部署。

MoLM是一系列基于ModuleFormer的语言模型,参数规模从40亿到80亿不等。

模型使用 要加载模型,你需要安装此软件包:

pip install -e .

然后你可以用以下代码加载模型:

from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig, AutoModelForSequenceClassification
from moduleformer import ModuleFormerForCausalLM, ModuleFormerConfig, ModuleFormerForSequenceClassification
AutoConfig.register("moduleformer", ModuleFormerConfig)
AutoModelForCausalLM.register(ModuleFormerConfig, ModuleFormerForCausalLM)
AutoModelForSequenceClassification.register(ModuleFormerConfig, ModuleFormerForSequenceClassification)

tokenizer = AutoTokenizer.from_pretrained('ibm/MoLM-350M-4B')
model = AutoModelForCausalLM.from_pretrained('ibm/MoLM-350M-4B')

模型详情 MoLM-350M-4B是一个基于MoE的语言模型。它有40亿参数,但每个输入token只激活3.5亿参数。因此,它在计算上相当于一个3.5亿参数的密集模型。 MoLM-700M-4B有40亿参数,在计算上相当于一个7亿参数的密集模型。 MoLM-700M-8B有80亿参数,在计算上相当于一个7亿参数的密集模型。所有模型都在来自公开来源的3000亿个token上训练。 所有模型都在来自公开来源的3000亿个token上训练,学习率为3.0 x 10-4,全局批量大小为300万个token。

模型开发者 IBM

变体 MoLM有两种不同的参数规模 — 40亿和80亿。40亿参数模型有两个变体,计算成本不同 — 3.5亿和7亿。

输入 模型仅输入文本。

输出 模型仅生成文本。

模型架构 MoLM是一个使用ModuleFormer架构的自回归语言模型。每个注意力层有16个注意力模块,每个MLP层有32个MLP模块。在推理过程中,MoLM-350M-4B和MoLM-700M-8B在每一层为每个token激活2个模块,而MoLM-700M-4B激活4个模块。MoLM-350M-4B和MoLM-700M-4B有24个块,MoLM-700M-8B有48个块。

状态 这是一个在离线数据集上训练的静态模型。我们将根据社区反馈改进模型安全性,并发布未来版本的调优模型。

研究论文 "ModuleFormer: 从专家混合中涌现的模块化"

训练数据

MoLM模型在来自公开来源的3000亿个token的数据上进行预训练。

评估结果

在本节中,我们报告MoLM模型在标准学术基准测试上的结果。对于所有评估,我们使用LM evaluations Harness

模型延迟内存吞吐量HellaswagPIQAARC-eARC-cOBQA
毫秒GB令牌/秒准确率准确率准确率准确率准确率
Pythia 410M554255959433.7266.7051.8921.4218.2
GPT-Neo 1.3B991233285738.6671.1156.1923.1221.4
Pythia 1.4B918423555940.4170.8460.5226.1122.2
MoLM-350M-4B497277101739.2170.1356.4423.5520.8
GPT-Neo 2.7B1737351878842.7172.261.0727.4723.2
Pythia 2.8B2111701552245.3473.9964.3529.3523.8
MoLM-700M-4B863273993142.2073.0160.8225.9422.6
MoLM-700M-8B939383741943.3372.9162.4627.9023.8
模型TriviaQAHumanEvalWikitext
零样本单样本5样本通过@1通过@10通过@100PPL
Pythia 410M2.325.026.421.203.859.9820.09
GPT-Neo 1.3B5.248.019.743.626.8714.5016.16
Pythia 1.4B5.309.8712.842.197.3114.3314.71
MoLM-350M-4B5.4011.1213.703.046.9913.7915.15
GPT-Neo 2.7B4.8211.2313.674.899.5417.9013.93
Pythia 2.8B7.3815.5818.984.9111.7621.5412.68
MoLM-700M-4B9.0714.2416.495.5010.6520.2713.20
MoLM-700M-8B11.4716.7320.755.5112.5820.4012.97

伦理考虑和局限性

MoLM是一项新技术,其使用存在风险。迄今为止的测试仅限于英语,并未涵盖也无法涵盖所有场景。因此,与所有大型语言模型一样,MoLM的潜在输出无法提前预测,在某些情况下,模型可能会对用户的提示产生不准确、有偏见或其他令人反感的回应。因此,在部署任何MoLM应用之前,开发人员应该针对其特定的模型应用进行安全测试和调整。

引用

如果您使用本仓库中的数据或代码,请引用以下论文。

@article{shen2023moduleformer,
  title={ModuleFormer: Learning Modular Large Language Models From Uncurated Data},
  author={Shen, Yikang and Zhang, Zheyu and Cao, Tianyou and Tan, Shawn and Chen, Zhenfang and Gan, Chuang},
  journal={arXiv preprint arXiv:2306.04640},
  year={2023}
}

MoLM模型索引

模型MoLM
350M-4B链接
700M-4B链接
700M-8B链接
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号