项目介绍:Switch-Base-32
背景概览
Switch Transformers是一种混合专家(Mixture of Experts, MoE)模型,主要应用于掩码语言建模(Masked Language Modeling, MLM)任务。它类似于经典的T5模型架构,但使用稀疏的多层感知机(Sparse MLP)层代替原有的前馈层,其中包含多个“专家”MLP。这种设计使得训练速度比T5-XXL模型提高4倍,同时在微调任务上表现更出色。
模型详情
模型描述
- 模型类型:语言模型
- 语言:英语
- 许可证:Apache 2.0
- 相关模型:所有Switch Transformers检查点
- 原始检查点:所有原Switch Transformers检查点
- 更多信息来源:
使用方法
由于检查点主要是在掩码语言建模任务上进行训练,因此它们并非直接用于下游任务。用户可能需要考虑使用FLAN-T5
进行微调,或者按照相应的教程来微调自己的MoE模型。
在CPU和GPU上运行模型
用户可以在transformers
库中通过提供的脚本使用该模型,其中支持在CPU和GPU上运行,并可以使用不同的精度(如FP16和INT8)。
实际用途
Switch Transformers模型可直接用于生成文本任务,也可用于通过微调进行其他自然语言处理任务的实现。
偏见、风险和局限性
目前,对模型的伦理考虑、已知局限性和敏感使用情况的详细信息仍需进一步补充。
训练详情
训练数据
模型使用掩码语言建模任务进行训练,所用数据集为Colossal Clean Crawled Corpus (C4),训练过程与T5相同。
训练过程
根据原始论文,模型在TPU v3或TPU v4 pods上进行训练,使用t5x
代码库和jax
进行训练。
评估
测试数据、因素与指标
模型的表现通过各种任务的对比测试得出,与T5进行了比较评估。更详细的定量评估请参考研究论文。
环境影响
碳排放可以通过Machine Learning Impact Calculator估算,该计算器由Lacoste等人(2019)提出。相关的环保数据如计算硬件类型和使用时间仍需补充。
参考文献
有关引用信息请参考以下BibTeX条目:
@misc{https://doi.org/10.48550/arxiv.2101.03961,
doi = {10.48550/ARXIV.2101.03961},
url = {https://arxiv.org/abs/2101.03961},
author = {Fedus, William and Zoph, Barret and Shazeer, Noam},
keywords = {Machine Learning (cs.LG), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity},
publisher = {arXiv},
year = {2021},
copyright = {arXiv.org perpetual, non-exclusive license}
}