#Landmark Attention

Landmark Attention: 变革性的无限上下文长度Transformer模型

2 个月前

Landmark Attention是一种新型的注意力机制,通过引入landmark token来实现随机访问无限上下文长度的Transformer模型。本文将详细介绍Landmark Attention的原理、实现方法及其在语言模型和LLaMA微调中的应用,探讨这一技术对大规模语言模型发展的重要意义。

Landmark Attention Transformer LLaMA 语言模型深度学习 Github 开源项目

2 个月前

相关项目

landmark-attention

Landmark Attention项目提供了一种创新注意力机制的实现，可处理无限长度的上下文。该项目包含语言建模基准测试和LLaMA模型微调代码，以及与Flash Attention结合的Triton实现。通过在输入中添加特殊landmark标记，实现了对超长序列的随机访问，优化了Transformer模型的长文本处理能力，同时显著降低了内存使用并提高了性能。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com