热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#专家
switch-base-128 - 探索语言模型优化与参数缩放的最新进展
Github
开源项目
语言模型
模型
Huggingface
混合专家
Switch Transformers
专家
蒙面语言建模
Switch Transformers采用专家混合(MoE)模型架构,针对掩码语言模型(MLM)任务进行训练。该模型使用稀疏多层感知器层取代传统的前馈层,提升了训练效率。在Colossal Clean Crawled Corpus上完成了高达万亿参数的预训练,表现出优于T5的微调效果,并实现了相较于T5-XXL模型的四倍加速,适合需要高效语言模型的应用。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号