#Swin Transformer v2
swinv2-tiny-patch4-window16-256 - Swin Transformer v2:分层特征图构建的高效视觉模型
Github开源项目深度学习神经网络计算机视觉模型图像分类HuggingfaceSwin Transformer v2
Swin Transformer v2是一种改进的视觉模型,通过合并图像块构建分层特征图,适用于图像分类和密集识别任务。它采用局部窗口自注意力机制,实现了线性计算复杂度。模型引入残差后归一化、余弦注意力和对数间隔连续位置偏置等技术,提升训练稳定性和迁移能力。同时,利用SimMIM自监督预训练方法减少了对大量标记图像的依赖。
swinv2-tiny-patch4-window8-256 - 基于分层特征图的轻量级视觉Transformer模型
Github开源项目深度学习计算机视觉模型图像分类ImageNetHuggingfaceSwin Transformer v2
Swin Transformer V2是一个在ImageNet-1k数据集上预训练的视觉模型,采用分层特征图结构和局部窗口注意力机制,实现线性计算复杂度。模型整合了残差后归一化和余弦注意力等技术,在保持256x256分辨率输入的同时,提供了稳定的图像分类和特征提取能力。