#FlashAttention

LongLM学习资料汇总 - 一种无需微调即可扩展LLM上下文窗口的新方法

2 个月前

SelfExtend LLM transformers FlashAttention Llama-3 Github 开源项目

2 个月前

Flash Attention: 革新Transformer模型的高效注意力机制

3 个月前

FlashAttention CUDA PyTorch GPU加速注意力机制 Github 开源项目

3 个月前

Metal Flash Attention: 加速Apple生态系统中图像生成的核心

3 个月前

FlashAttention Apple silicon Metal 性能优化注意力机制 Github 开源项目

3 个月前

Metal Flash Attention: 加速Apple设备上的AI模型训练

3 个月前

FlashAttention Apple silicon Metal 性能优化注意力机制 Github 开源项目

3 个月前

LongLM: 无需微调即可自我扩展LLM上下文窗口

3 个月前

SelfExtend LLM transformers FlashAttention Llama-3 Github 开源项目

3 个月前

相关项目

LongLM

LongLM项目介绍了Self-Extend方法，通过不需要调优的方式扩展大语言模型（LLM）的上下文窗口，利用其内在能力处理长上下文。此方法获得了Google I/O和ICML 2024的关注，并支持多种模型如Llama-3、Gemma和Qwen1.5。项目说明了如何安装和运行Self-Extend，并提供组选参数的指导原则及实验结果，以帮助用户应用这一技术。

flash-attention

FlashAttention是一种高效的注意力机制实现,通过IO感知算法和内存优化提升计算速度并降低内存消耗。它支持NVIDIA和AMD GPU,适用于多种深度学习框架。最新的FlashAttention-3版本针对H100 GPU进行了优化。该项目提供Python接口,可集成到现有模型中,有助于加速大规模深度学习模型的训练过程。

metal-flash-attention

metal-flash-attention项目将FlashAttention算法移植至Apple silicon，提供精简可维护的实现。支持macOS和iOS，使用32位精度计算和异步拷贝。项目采用单头注意力机制，专注于核心瓶颈优化。通过创新的反向传播设计，减少内存使用并提高计算效率。改进了原始FlashAttention的反向传播设计，提高并行效率。项目正在持续优化，包括寄存器压力、可移植性和文档完善。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com