热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Masked Language Modeling
switch-base-32 - 高效稀疏性提升了大规模语言模型训练速度
Huggingface
Switch Transformers
开源项目
模型
Masked Language Modeling
Github
专家模型
语言模型
T5
Switch Transformers通过混合专家模型提高了屏蔽语言模型任务的训练速度,相较于T5,其微调任务表现更佳。该模型使用稀疏MLP替代传统前馈层,并在Colossal Clean Crawled Corpus上预训练,实现了4倍训练加速。研究还探讨了其环境影响并提供详细技术细节及源代码链接。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号