热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#C4数据集
switch-base-8 - 基于专家模型的高效语言模型训练
Github
开源项目
模型
Huggingface
混合专家
T5
C4数据集
Switch Transformers
屏蔽语言建模
Switch Transformers是一个创新的专家混合模型,专为在Colossal Clean Crawled Corpus数据集上进行掩码语言建模任务而设计,在训练速度上较T5-XXL模型提升4倍。其架构使用Sparse MLP层替代传统T5模型中的前馈层,提供更快训练且性能优异。该模型在未微调前并不适用于直接应用任务,需进一步调优。Switch Transformers适合需要高效和短时间内取得优异结果的开发者与研究者。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号