Project Icon

LongNet

扩展Transformer到10亿标记的创新变体

LongNet是一个创新的Transformer变体,通过膨胀注意力机制扩展序列长度至超过10亿标记,同时保持对较短序列的高性能。该模型具有线性计算复杂度,适用于极长序列的分布式训练,并且其膨胀注意力可以无缝替代标准注意力。实验结果证明,LongNet在长序列建模和一般语言任务上表现出色,为处理整个语料库或互联网序列开辟了新路径。

多模态

LongNet:将 Transformer 扩展到 10 亿个 Token

LongNet横幅

GitHub 问题 GitHub 分支 GitHub 星标 GitHub 许可证 [在 Twitter 上分享](https://twitter.com/intent/tweet?text=很高兴介绍 LongNet,这是一个全新的长序列模型,有潜力彻底改变自动化。让我们一起踏上通向更智能未来的旅程。%23LongNet%20%23LongSequence&url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet) 在 Facebook 上分享 [在 LinkedIn 上分享](https://www.linkedin.com/shareArticle?mini=true&url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&title=介绍 LongNet,全新的长序列模型&summary=LongNet 是下一代长序列模型,承诺通过其智能和效率改变各行各业。加入我们,成为这一革命性旅程的一部分 %23LongNet%20%23LongSequence&source=) Discord [在 Reddit 上分享](https://www.reddit.com/submit?url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&title=令人兴奋的未来:LongNet,全新的长序列模型 %23LongNet%20%23LongSequence) [在 Hacker News 上分享](https://news.ycombinator.com/submitlink?u=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&t=令人兴奋的未来:LongNet,全新的长序列模型 %23LongNet%20%23LongSequence) [在 Pinterest 上分享](https://pinterest.com/pin/create/button/?url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&media=https%3A%2F%2Fexample.com%2Fimage.jpg&description=LongNet,革命性的长序列模型,将改变我们的工作方式 %23LongNet%20%23LongSequence) [在 WhatsApp 上分享](https://api.whatsapp.com/send?text=我刚刚发现了 LongNet,这是一个全新的长序列模型,有望彻底改变自动化。和我一起踏上这个激动人心的智能未来之旅吧。%23LongNet%20%23LongSequence%0A%0Ahttps%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet)

这是论文LongNet: 将 Transformer 扩展到 10 亿个 Token的开源实现,作者为丁佳钰、马树铭、董力、张星星、黄少汉、王文辉和魏馥茹。LongNet 是一种 Transformer 变体,旨在将序列长度扩展到超过 10 亿个 token,同时不牺牲较短序列的性能。

安装

pip install longnet

使用方法

安装 LongNet 后,您可以按以下方式使用 DilatedAttention 类:

import torch
from long_net import DilatedAttention

# 模型配置
dim = 512
heads = 8
dilation_rate = 2
segment_size = 64

# 输入数据
batch_size = 32
seq_len = 8192

# 创建模型和数据
model = DilatedAttention(dim, heads, dilation_rate, segment_size, qk_norm=True)
x = torch.randn((batch_size, seq_len, dim))

output = model(x)
print(output)

LongNetTransformer

一个完全可训练的 transformer 模型,具有膨胀 transformer 块、带有层归一化的前馈网络、SWIGLU 和并行 transformer 块

import torch
from long_net.model import LongNetTransformer

longnet = LongNetTransformer(
    num_tokens=20000,
    dim=512,
    depth=6,
    dim_head=64,
    heads=8,
    ff_mult=4,
)

tokens = torch.randint(0, 20000, (1, 512))
logits = longnet(tokens)
print(logits)

训练

  • 要在 enwiki8 数据集上运行简单的训练,请 git clone,安装 requirements.txt,然后运行 python3 train.py

LongNet 概述

在大型语言模型时代,扩展序列长度已成为一个关键瓶颈。然而,现有方法在计算复杂性或模型表达能力方面都存在困难,导致最大序列长度受到限制。在本文中,他们介绍了 LongNet,这是一种 Transformer 变体,可以将序列长度扩展到超过 10 亿个 token,同时不牺牲较短序列的性能。具体而言,他们提出了膨胀注意力,随着距离的增加,注意力场呈指数级扩大。

特点

LongNet 具有显著优势:

  1. 它具有线性计算复杂度和对数级别的 token 间依赖关系。
  2. 它可以作为极长序列的分布式训练器。
  3. 其膨胀注意力机制是标准注意力的即插即用替代品,可以无缝集成到现有的基于 Transformer 的优化中。

实验结果表明,LongNet 在长序列建模和一般语言任务上都表现出色。他们的工作为建模超长序列开辟了新的可能性,例如将整个语料库甚至整个互联网作为一个序列处理。

引用

@inproceedings{ding2023longnet,
  title={LongNet: Scaling Transformers to 1,000,000,000 Tokens},
  author={Ding, Jiayu and Ma, Shuming and Dong, Li and Zhang, Xingxing and Huang, Shaohan and Wang, Wenhui and Wei, Furu},
  booktitle={Proceedings of the 10th International Conference on Learning Representations},
  year={2023}
}

待办事项

  • 修复并行 Transformer 块的前向传播中的膨胀注意力
  • 在 enwiki8 上训练并测试
  • 创建多头迭代
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号