#Dilated Attention

LongNet - 扩展Transformer到10亿标记的创新变体

LongNetTransformerDilated Attention长序列建模机器学习Github开源项目

LongNet是一个创新的Transformer变体，通过膨胀注意力机制扩展序列长度至超过10亿标记，同时保持对较短序列的高性能。该模型具有线性计算复杂度，适用于极长序列的分布式训练，并且其膨胀注意力可以无缝替代标准注意力。实验结果证明，LongNet在长序列建模和一般语言任务上表现出色，为处理整个语料库或互联网序列开辟了新路径。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号