热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Monarch Mixer
m2 - 子二次GEMM架构Monarch Mixer实现高效语言模型
人工智能
Github
开源项目
自然语言处理
机器学习
Monarch Mixer
M2-BERT
Monarch Mixer是一种创新的子二次GEMM架构,用于训练序列长度和模型维度均为子二次的语言模型。该架构使用Monarch矩阵层替代Transformer中的注意力和MLP操作,提高了计算效率。基于此架构的M2-BERT模型在减少25%参数和计算量的同时,在GLUE基准测试中达到了与BERT相当的性能。项目开源了预训练模型权重以及预训练和微调代码,方便研究者进行further研究。
1
1
相关文章
Monarch Mixer: 革命性的子二次矩阵乘法架构
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号