#注意力机制

PyramidKV支持多GPU推理和KV缓存压缩，兼容LlaMa-3-70B-Instruct及多种注意力机制，如Flash Attention v2和Sdpa。该项目还集成了SnapKV、H2O和StreamingLLM，提供设备灵活性，并通过简单安装和直观推理脚本提高研究效率。

Anomaly-Transformer

Anomaly-Transformer是一种时间序列异常检测模型，利用关联差异作为可区分标准，并结合Anomaly-Attention机制和极小极大策略提高检测效果。该模型在多个基准数据集上展现出优秀性能，为无监督时间序列异常检测领域提供了新的解决方案。

EasyContext 是一个开源项目，致力于优化语言模型的上下文长度至 100 万个标记。项目结合序列并行、Deepspeed zero3 卸载和 Flash attention 等技术，实现了对 Llama2-7B 和 Llama2-13B 模型的全参数微调。通过最小化硬件需求，EasyContext 展示了长上下文扩展的可行性，并提供简洁的实现代码和评估结果，为自然语言处理研究和开发提供了有价值的资源。

k-diffusion是一个基于PyTorch的扩散模型实现框架。它支持分层Transformer模型、多种采样算法和Min-SNR损失加权。该框架提供模型包装器、CLIP引导采样功能，以及对数似然、FID和KID等评估指标的计算。k-diffusion为扩散模型研究和应用提供了实用工具。

ChunkLlama项目开发了双重块注意力(DCA)技术，无需额外训练即可将大语言模型的上下文窗口扩展至原始长度的8倍以上。DCA可与主流外推技术和高效推理库兼容，支持Llama、Mistral等多种模型。实验表明，应用DCA后的Llama-2/3 70B模型能处理长达100k的上下文，并在长文本任务中表现出色。

xFormers 是一个加速 Transformer 研究的开源工具库。它提供可自定义的独立模块，无需样板代码即可使用。该项目包含前沿组件，专注于研究需求，同时注重效率。xFormers 的组件运行快速且内存利用率高，集成了自定义 CUDA 内核和其他相关库。它支持多种注意力机制、前馈网络和位置编码，适用于计算机视觉、自然语言处理等多个领域的研究工作。

Nonstationary_Transformers

Non-stationary Transformers项目开发了新型时间序列预测方法，采用系列平稳化和去平稳注意力机制处理非平稳数据。该方法在多个基准数据集上展现出优异性能，并能有效提升现有注意力模型的预测效果。项目开源了完整代码和实验脚本，为时间序列预测研究和应用提供了重要参考。

a-PyTorch-Tutorial-to-Transformers

本项目提供了一个基于PyTorch的Transformer模型实现教程。教程深入讲解了Transformer的核心概念,如多头注意力机制和编码器-解码器架构,并以机器翻译为例展示应用。内容涵盖模型实现、训练、推理和评估等环节,适合想要深入理解和应用Transformer技术的学习者。

transformer-abstractive-summarization

transformer-abstractive-summarization是一个开源项目，利用Transformer模型实现抽象文本摘要。项目基于'Attention is all you need'论文提出的Transformer模型，使用Inshorts数据集训练。项目提供博客教程，详细介绍Transformer原理及其在文本摘要中的应用。该技术能生成高质量摘要，适用于新闻和文档处理等领域。项目采用Apache License 2.0许可证。

Awesome-Transformer-Attention

探索视觉变换器和注意力机制的最新发展，包括由Min-Hung Chen持续更新的论文、代码与链接资源。适合学术与实际应用，发现创新思路。

Attention Gym是一个基于FlexAttention API的开源工具集，用于实验和优化各种注意力机制。项目提供了多种注意力变体的实现、性能对比工具和实用函数，包括示例脚本和可视化组件。研究人员和开发者可以利用这些资源来探索、理解和应用先进的注意力技术，从而在自己的模型中实现更高效的注意力机制。

Flowformer 是一种 Transformer 模型，通过引入保护流网络理论，实现了线性复杂度的注意力机制。它能够处理超过4000多个标记的长序列，在视觉、自然语言处理、时间序列和强化学习等领域表现优异。在长序列建模任务中，Flowformer 的平均准确率达到56.48%，超过了 Performer 和 Reformer 等现有方法。该项目不依赖特定归纳偏置，提供了核心代码实现和多个领域的应用示例，为研究人员和开发者提供了一个通用的基础模型。

MixFormer是一种创新的端到端目标跟踪框架，采用目标-搜索混合注意力(MAM)骨干网络和角点头部结构，实现了无需显式集成模块的紧凑跟踪流程。这种无后处理方法在LaSOT、GOT-10K和TrackingNet等多个基准测试中表现卓越，并在VOT2020上取得0.584的EAO成绩。项目开源了代码、模型和原始结果，为目标跟踪研究领域提供了宝贵资源。

ComfyUI_densediffusion

ComfyUI_densediffusion是一个为ComfyUI开发的自定义节点，实现了基于DenseDiffusion的区域提示方法。该项目通过注意力操纵技术，增强了图像生成过程的精确控制。目前，ComfyUI_densediffusion与IPAdapter存在兼容性问题，开发者正在努力解决这一限制。项目提供了直观的界面，方便用户应用区域提示技术。

flash-attention-minimal

flash-attention-minimal是一个开源项目，使用CUDA和PyTorch对Flash Attention进行最小化实现。项目仅用约100行代码完成前向传播，遵循原始论文符号表示，为CUDA初学者提供简明教程。通过与手动注意力机制的性能对比，展示了显著的速度提升。尽管目前存在一些限制，如缺少反向传播和固定块大小，但该项目为理解Flash Attention核心概念提供了有价值的参考资料。

SpA-Former-shadow-removal

SpA-Former是一种基于Transformer的图像去阴影模型,采用空间注意力机制提取阴影特征。在ISTD数据集上,该模型在PSNR、SSIM和RMSE指标方面表现出色。SpA-Former具有参数量少、计算效率高的特点,适用于实际场景的阴影去除。该研究已在IJCNN 2023会议发表,并开源了预训练模型和测试结果,便于研究者复现和对比。

Crossformer是一种新型Transformer模型，针对多变量时间序列预测设计。该模型采用维度分段嵌入、两阶段注意力机制和层次编码器-解码器结构，有效捕捉时间和维度间的依赖关系。Crossformer在多个基准数据集上表现优异，为长序列预测和高维数据处理提供新思路。其开源实现便于研究人员和实践者探索应用。

H2O项目提出了一种创新的KV缓存实现方法，通过识别对注意力分数贡献最大的少数token，显著减少了大型语言模型推理的内存占用。该项目引入了Heavy Hitter Oracle (H2O)作为KV缓存淘汰策略，在多个任务中验证了其准确性。在OPT-6.7B和OPT-30B模型上，H2O显著提高了推理吞吐量并减少了延迟，为大型语言模型的高效推理提供了新的解决方案。

YOLO Magic🚀 是一个基于YOLOv5的扩展项目，为视觉任务提供更强大的功能和简化的操作。该项目引入了多种网络模块，如空间金字塔模块、特征融合结构和新型骨干网络，并支持多种注意力机制。通过直观的网页界面，无需复杂的命令行操作即可轻松进行图像和视频推理。无论是初学者还是专业人员，YOLO Magic🚀都能提供出色的性能、强大的定制能力和广泛的社区支持。

FlashInfer是一个面向大型语言模型(LLM)服务和推理的GPU内核库。它实现了多种注意力机制，如FlashAttention、SparseAttention和PageAttention。通过优化共享前缀批处理解码和压缩KV缓存等技术，FlashInfer提高了LLM推理效率。该项目兼容PyTorch、TVM和C++，便于集成到现有系统，适用于多种LLM应用场景。

En-transformer是一个创新的开源项目，结合了E(n)等变图神经网络与Transformer架构。支持原子和键类型嵌入，处理稀疏邻居，传递连续边特征。已应用于抗体CDR环设计，并可用于蛋白质骨架坐标去噪等分子建模任务。项目提供简便的安装和使用方法，适合研究人员和开发者探索。

StreamingLLM是一个创新框架，使大型语言模型能处理超长输入序列。它通过注意力汇聚点技术解决了长文本处理的内存和性能问题，无需额外微调。在多轮对话等流式应用中，StreamingLLM比基线方法速度提升最高22.2倍。该技术已被多个知名项目采用，为语言模型的实际应用开辟了新途径。

metal-flash-attention

metal-flash-attention项目将FlashAttention算法移植至Apple silicon，提供精简可维护的实现。支持macOS和iOS，使用32位精度计算和异步拷贝。项目采用单头注意力机制，专注于核心瓶颈优化。通过创新的反向传播设计，减少内存使用并提高计算效率。改进了原始FlashAttention的反向传播设计，提高并行效率。项目正在持续优化，包括寄存器压力、可移植性和文档完善。

DN-DETR通过创新的查询去噪技术加速DETR目标检测模型训练。该方法仅需50%训练周期即可达到基线模型性能,大幅提高训练效率。项目开源了DN-DETR、DN-Deformable-DETR等多个模型实现,并提供详细的模型库、使用指南和安装说明,便于研究者复现结果或将去噪训练应用于其他模型。

EEG-ATCNet是一种创新的深度学习模型,专门用于脑机接口中EEG信号的运动想象分类。该模型融合卷积神经网络、自注意力机制和时间卷积网络,有效提取EEG信号时空特征。在BCI竞赛IV-2a数据集上,EEG-ATCNet准确率达81.10%,优于其他常用模型。项目还实现了多种注意力机制和数据处理方法,为EEG信号分析研究提供了实用工具。

simple-hierarchical-transformer

这个项目提出了一种在GPT模型中实现多层次预测编码的方法。它通过在Transformer中引入多层结构，结合局部注意力和全局信息传递。实验结果显示，该方法在维持性能的同时提升了效率。项目允许自定义层次结构、维度和注意力窗口大小，为研究人员提供了探索分层Transformer的实验工具。项目代码支持灵活配置，包括调整层次数量、模型维度和注意力窗口大小。这种设计使研究人员能够方便地进行不同参数的对比实验，有助于深入理解分层Transformer的性能特点。

FLASH-pytorch是一个开源项目，实现了一种高效的Transformer变体。该项目采用门控注意力单元(GAU)和分组线性注意力，在线性时间内提升模型性能。它提供简洁API，支持自回归和非自回归模式，并整合多种位置编码技术。这一工具使研究人员和开发者能够便捷地探索和应用Transformer的最新优化技术。

pytorch-transformer

该项目实现了基于PyTorch的Transformer模型，通过详细的步骤和代码讲解，辅以‘Attention is all you need’论文的实现和YouTube视频教程，帮助用户掌握并应用Transformer模型。适合从事深度学习、自然语言处理的开发者和研究者。

AttentionDeepMIL

AttentionDeepMIL是一个开源的深度多实例学习算法项目，基于PyTorch框架实现。它在LeNet-5模型基础上创新性地添加了注意力机制的MIL池化层，适用于图像分类等多实例学习任务。该项目提供完整的实验环境，包括MNIST-BAGS数据集处理、模型架构和训练脚本，支持CPU和GPU运行。此外，AttentionDeepMIL还展示了在医学图像分析领域的应用潜力，包括对乳腺癌和结肠癌组织病理学数据集的实验支持。

Quest是一个创新的长文本LLM推理框架，通过在KV缓存中应用查询感知稀疏化技术，显著减少了注意力计算中的内存移动。该框架跟踪缓存页面的Key值范围，并利用Query向量评估页面重要性，仅加载最关键的KV缓存页面。实验表明，Quest可将自注意力计算速度提升至7.03倍，推理延迟降低2.23倍，同时在长依赖任务中保持高精度。

flash-attention

FlashAttention是一种高效的注意力机制实现,通过IO感知算法和内存优化提升计算速度并降低内存消耗。它支持NVIDIA和AMD GPU,适用于多种深度学习框架。最新的FlashAttention-3版本针对H100 GPU进行了优化。该项目提供Python接口,可集成到现有模型中,有助于加速大规模深度学习模型的训练过程。

DiffSeg是一种利用稳定扩散模型注意力信息的无监督零样本图像分割方法。这个开源项目实现了DiffSeg算法，并提供环境设置指南、运行说明和基准测试。DiffSeg在CoCo-Stuff-27和Cityscapes数据集上表现出色，为计算机视觉领域提供了新的解决方案。特别适合研究无监督学习和零样本学习的专业人士，以及需要高效、灵活图像分割方案的研究人员和开发者。

perceiver-pytorch

perceiver-pytorch项目实现了Perceiver和PerceiverIO模型。这些模型采用迭代注意力机制，能够处理图像、视频和文本等多种输入数据。项目提供灵活的配置选项，包括输入通道数、频率编码和注意力头数等。通过语言模型示例，展示了PerceiverIO架构的通用性。该实现适合处理复杂多模态输入的深度学习研究和应用。项目提供了简单易用的API，支持快速集成到现有PyTorch项目中。代码实现了原论文中的核心概念，如交叉注意力和自注意力机制。此外，项目还包含了实验性的自下而上注意力版本，为研究人员提供了更多探索空间。

QFormer是一种创新的视觉Transformer模型，采用四边形注意力机制替代传统窗口注意力。该模型通过可学习的四边形回归模块，将默认窗口转换为目标四边形进行计算，从而更好地建模不同形状和方向的目标。在图像分类、目标检测、语义分割和人体姿态估计等多项视觉任务中，QFormer在保持低计算成本的同时，性能显著优于现有的视觉Transformer模型。

infini-transformer

Infini-Transformer是一种创新的Transformer模型，专门用于处理无限长度的上下文。该模型采用压缩性记忆机制和混合深度技术，能有效处理超长序列。Infini-Transformer支持文本分类、问答和语言生成等多种任务，并集成RoPE和YaRN等先进位置编码技术。这一模型为长文本处理和大规模语言任务提供了高效解决方案。

相关文章

Article Cover

PyramidKV: 革新性的动态KV缓存压缩技术

Article Cover

Attention Gym: 打造大脑的注意力训练场

Article Cover

AttentionDeepMIL: 基于注意力机制的深度多示例学习

Article Cover

ComfyUI_densediffusion：为AI艺术创作带来精细控制的强大扩展

Article Cover

EasyContext: 革命性突破长上下文语言模型训练

Article Cover

Anomaly Transformer: 利用关联差异实现时间序列异常检测的创新方法

Article Cover

Metal Flash Attention: 加速Apple设备上的AI模型训练

Article Cover

FlowFormer: 变革性的Transformer架构在光流估计领域的应用

Article Cover

Awesome-Transformer-Attention: 视觉Transformer和注意力机制的全面综述

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号