#自注意力机制

attention-is-all-you-need-pytorch - PyTorch版Transformer模型,采用自注意力机制
Transformer modelPyTorch自注意力机制WMT 2014 英德翻译BPEGithub开源项目
本项目基于《Attention is All You Need》论文实现了PyTorch版Transformer模型,利用自注意力机制替代传统的卷积和循环结构,在WMT 2014英德翻译任务中表现出色。项目支持模型训练和翻译,部分字节对编码相关部分尚未完全测试,仍在开发中。提供详细的教程,包括数据预处理、模型训练和测试步骤,为用户提供全面指导。
ArtLine - 自动生成精美肖像线条艺术的开源项目
ArtLineControlNet线描艺术AI绘图自注意力机制Github开源项目
ArtLine项目旨在自动生成精美的肖像线条艺术。整合了ControlNet与ArtLine,该模型不仅能识别面部特征,还能根据指令调整图像风格。项目采用自注意力机制、渐进式缩放和感知损失技术,使其在不同姿态和背景下表现出色。项目持续改进,将解决背景和阴影识别问题,提供更好的用户体验。
transformers - 免费开源的transformers课程,详解关键概念与实践操作
transformers课程自注意力机制多头注意力机制BERTGithub开源项目
该课程由软件工程师Peter发起,现正免费且开放源码。内容涵盖transformers的关键概念、实践练习和学术论文剖析。通过YouTube视频讲解和Jupyter笔记本实操,深入学习编码器-解码器架构、自注意力、多头注意力等核心概念,并从零开始构建简单的transformer模型。亦包含如何微调BERT和GPT-2等预训练模型及进行特定任务处理和文本生成。
former - 使用PyTorch实现简单Transformer模型的指南
transformerPyTorch自注意力机制分类实验IMDb数据集Github开源项目
详细介绍了如何使用PyTorch从零开始实现简单的Transformer模型,包含安装和使用指南,以及通过命令行控制超参数和数据自动下载的说明。
EEG-Conformer - 结合卷积和自注意力的EEG解码与可视化工具
EEG ConformerEEG解码卷积神经网络自注意力机制大脑波形投影Github开源项目
EEG Conformer是一种结合卷积和自注意力机制的EEG分类与可视化工具。其卷积模块提取时间和空间上的局部特征,自注意力模块捕捉全局关联,最终通过全连接层进行分类预测。此外,EEG Conformer还具备将类激活映射到脑拓扑图的可视化功能。支持Python 3.10和Pytorch 1.12,在多个BCI竞赛数据集上表现出色。
GroupMixFormer - 视觉Transformer的群组混合注意力革新
GroupMixFormer视觉Transformer自注意力机制图像分类计算机视觉Github开源项目
GroupMixFormer是一种创新的视觉Transformer模型,引入群组混合注意力(GMA)机制来增强传统自注意力。GMA可同时捕捉不同尺度的token和群组相关性,显著提升模型表征能力。在多项计算机视觉任务中,GroupMixFormer以较少参数实现了领先性能。其中GroupMixFormer-L在ImageNet-1K分类上达到86.2% Top-1准确率,GroupMixFormer-B在ADE20K分割上获得51.2% mIoU,展现出强大潜力。
spreadsheet-is-all-you-need - 电子表格实现nanoGPT架构 直观展示Transformer内部机制
nanoGPTtransformer自注意力机制矩阵计算电子表格Github开源项目
这个项目将nanoGPT的完整推理流程实现在电子表格中,包括嵌入、层归一化和自注意力等Transformer核心组件。基于Andrej Karpathy的NanoGPT结构,该电子表格模型包含约85000个参数。通过直观展示Transformer的内部机制和数据流,并支持交互式操作,该项目为深入理解GPT工作原理提供了新颖的可视化方法。用户可以通过探索这个电子表格来更好地掌握Transformer架构的细节。
RGT - 递归泛化Transformer模型实现高效图像超分辨率
图像超分辨率TransformerRGT全局上下文自注意力机制Github开源项目
RGT项目提出递归泛化Transformer模型,通过创新的自注意力机制高效捕获图像全局信息。该模型结合局部和全局特征,在图像超分辨率任务中实现了优异性能,为高质量图像重建提供新思路。实验结果显示RGT在多个评估指标上超越了现有先进方法。
CAT - 创新图像恢复模型 强化远程特征建模
图像修复Transformer自注意力机制长程依赖卷积神经网络Github开源项目
CAT是一种创新的图像恢复模型,采用矩形窗口自注意力机制扩大特征提取范围。模型通过水平和垂直矩形窗口并行聚合特征,实现窗口间交互。结合CNN的局部特性,CAT在全局-局部特征耦合方面表现出色。实验证实该方法在多种图像恢复任务中超越了现有技术水平。
flatformer - 优化点云变换器性能
FlatFormer点云transformer3D目标检测自注意力机制Waymo数据集Github开源项目
FlatFormer是一种新型点云变换器算法,采用扁平化窗口注意力机制提高处理效率。在Waymo开放数据集上,它实现了领先的精度,并比现有方法快4.6倍。FlatFormer首次在边缘GPU上达到实时性能,为自动驾驶等对延迟敏感的应用开辟新途径。该算法通过平衡空间邻近性和计算规律性,减少了结构化和填充开销。
Visual-Style-Prompting - 创新的视觉风格提示方法实现文本到风格化图像生成
Visual Style Prompting文本到图像生成扩散模型自注意力机制风格控制Github开源项目
Visual-Style-Prompting项目提出创新的视觉风格提示方法,通过交换自注意力层键值实现多样化图像生成并保持特定风格。无需微调即可使用,生成图像忠实反映参考风格。经广泛评估,该方法在多种风格和文本提示下表现优异,准确匹配文本描述并最佳呈现参考风格。
cross-image-attention - 跨图像注意力机制实现零样本外观迁移
Cross-Image Attention零样本外观迁移语义对应图像生成自注意力机制Github开源项目
该项目开发了一种跨图像注意力机制,实现了零样本外观迁移。这种方法利用生成模型的语义理解,在保持目标结构的同时,将外观应用到不同形状的对象上。该技术适用于多种对象类别,对形状、大小和视角变化具有适应性。项目提供了代码实现、使用指南和演示,便于研究人员探索和应用。
SPViT - 单路径自注意力剪枝,提升ViT模型效率的新方法
SPViT自注意力机制卷积层视觉Transformer模型剪枝Github开源项目
SPViT项目提出了一种单路径自注意力剪枝方法,将预训练ViT模型中的自注意力层剪枝为卷积层,形成混合模型结构。该方法通过权重共享机制降低了模型搜索成本,在减少计算资源消耗的同时保持了模型性能。实验表明,SPViT在多个基准测试中表现良好,为Vision Transformer模型的优化设计提供了新思路。
NATTEN - 高效实现多维滑动窗口自注意力的开源库
NATTENNeighborhood Attention自注意力机制深度学习计算机视觉Github开源项目
NATTEN是一个开源库,专门用于快速实现Neighborhood Attention。该项目支持1D、2D和3D问题空间,提供naive、GEMM以及新型Fused Neighborhood Attention (FNA)等多种后端实现。FNA引入反向传播支持,显著提高了模型训练效率。NATTEN兼容PyTorch 2.0及更高版本,同时支持CPU和CUDA后端,并实现了因果掩码、可变参数和相对位置偏置等功能。
SAITS - 基于自注意力机制的时间序列插补新方法
SAITS时间序列插补自注意力机制PyPOTS深度学习Github开源项目
SAITS是一种基于纯自注意力机制的时间序列插补方法,无需递归设计。该方法克服了RNN模型的速度慢、内存限制和误差累积等缺点,在多个数据集上优于现有方法。SAITS采用联合优化训练,模型结构简洁高效,仅需Transformer 15-30%的参数即可获得可比性能。在平均绝对误差上,SAITS比BRITS提高12-38%,比NRTSI提高7-39%,同时训练速度提升2-2.6倍。该方法为时间序列插补研究提供了新的思路。
SOFT - 无需softmax的线性复杂度Transformer模型
Transformer自注意力机制线性复杂度图像分类目标检测Github开源项目
SOFT是一种新型Transformer模型,采用无需softmax的归一化自注意力机制,实现了线性复杂度和更强的泛化能力。该模型在图像分类、目标检测和语义分割等计算机视觉任务中表现优异。项目提供多种规模的预训练模型,适用于不同应用场景。开源代码包含完整的训练和评估流程,并附有详细说明,便于研究人员进行深入研究和应用开发。
SASRec.pytorch - 基于PyTorch的SASRec模型实现
SASRecPyTorch推荐系统自注意力机制序列推荐Github开源项目
SASRec.pytorch项目提供了自注意力序列推荐模型的PyTorch实现。相比原始TensorFlow版本,该项目优化了训练和推理流程,修复了正位置嵌入等问题。代码包含模型训练、评估和推理示例,并在MovieLens-1M数据集上展示了NDCG@10和HR@10指标的性能。项目适用于需要在PyTorch环境中研究或应用SASRec模型的人员,为推荐系统领域提供了有价值的开源资源。
linformer - 线性复杂度自注意力机制的PyTorch实现
LinformerPytorch自注意力机制深度学习神经网络Github开源项目
Linformer是一个基于PyTorch的高效自注意力机制实现。通过将注意力矩阵投影到低维度空间,它实现了线性复杂度,适合处理长序列数据。项目提供简洁API,支持构建语言模型和自注意力层。尽管在自回归任务和可变序列长度方面有局限,但其高效性已在Facebook的生产环境中得到验证,为处理大规模数据提供了新的解决方案。
vision-perceiver-conv - Perceiver IO模型:灵活应用于图像分类的优化架构
自注意力机制图像分类Huggingface开源项目模型GithubPerceiver IO模型预训练ImageNet
Perceiver IO是一个适用于多种模态的transformer编码器模型,通过自注意力机制在固定的计算资源下实现更高效的处理。该模型在ImageNet上进行了预训练,能够通过像素级处理进行准确的图像分类。模型结合了卷积和maxpool预处理,可以生成多尺寸和多语义的输出结果,并在ImageNet-1k中实现了82.1的顶级精度。这一模型不仅可用于高效的标准图像分类,还能通过替换分类解码器实现灵活的应用扩展,适用于多种任务的特征提取。
swin-base-patch4-window12-384 - 高效图像分类的Swin Transformer视觉模型
自注意力机制Swin Transformer视觉转换器图像分类Huggingface层次特征图开源项目模型Github
Swin Transformer是一款视觉Transformer,通过使用层级特征图和移窗技术,进行高效图像分类。模型在ImageNet-1k数据集上以384x384分辨率训练,具备线性计算复杂度,使其适用于图像分类和密集识别任务。模型可用于原始图像分类,或者在模型集中寻找细化版本,适合处理计算密集型任务。
MotionCLR - 人体动作生成与编辑,基于注意力机制实现训练无关的操作
AI工具MotionCLR运动生成注意力机制编辑能力自注意力机制
MotionCLR通过理解注意力机制实现人体动作的生成和编辑,无需训练条件。其模型结合自我注意力与交叉注意力,提供灵活的动态编辑功能,包括动作强调、替换及基于示例的生成。实验结果显示其在生成和编辑能力上表现卓越,并具备良好的解释性。