Denoising Vision Transformers: 消除ViT特征图中的伪影

Ray

引言

Vision Transformer (ViT)自问世以来在计算机视觉领域取得了巨大成功,在多个任务上超越了卷积神经网络(CNN)的表现。然而,研究人员发现ViT的特征图中存在一些不可忽视的问题 - 网格状的伪影,这些伪影严重影响了ViT在一些下游密集预测任务(如语义分割、深度估计等)中的性能。为了解决这一问题,来自南加州大学、康奈尔大学等机构的研究人员提出了Denoising Vision Transformers (DVT)方法。

DVT:消除ViT特征图中的伪影

DVT的核心思想是通过一个两阶段的去噪过程,有效地消除ViT特征图中的网格状伪影。这种方法不需要重新训练已有的预训练ViT模型,可以直接应用于任何ViT架构。

第一阶段:单图像去噪

在第一阶段,DVT采用了一种基于神经场(neural field)的单图像优化方法。其核心思想是将ViT的输出特征分解为三个部分:

  1. F(x): 表示去噪后的语义特征
  2. G(position): 表示跨视图共享的伪影
  3. h(x, position): 建模位置和语义内容之间的相互依赖关系

通过最小化重建误差和跨视图一致性损失,DVT可以有效地分离出干净的语义特征F(x)。这种单图像优化过程为离线应用提供了无伪影的特征估计。

第二阶段:训练通用去噪器

在第二阶段,研究人员利用第一阶段得到的大量去噪前后的特征对{y, F},训练了一个轻量级的Transformer块作为去噪器网络D。该网络可以直接从原始ViT输出y预测无噪声特征F,即F = D(y)。这个通用去噪器具有良好的泛化能力,可以应用于未见过的图像。

DVT的优势和应用

DVT方法具有以下几个显著优势:

  1. 无需重新训练:DVT可以直接应用于现有的预训练ViT模型,无需昂贵的重新训练过程。

  2. 通用性强:DVT可以应用于各种ViT架构,包括DINO、DeiT-III、EVA02、CLIP、DINOv2等。

  3. 性能提升显著:在多个下游任务中,DVT consistently提升了ViT的性能。

研究人员在多个具有代表性的数据集上评估了DVT的效果,包括:

  • PASCAL VOC 2012 (语义分割)
  • ADE20K (语义分割)
  • NYU Depth V2 (深度估计)
  • PASCAL VOC 2007+2012 (目标检测)

实验结果表明,DVT在所有这些任务上都取得了显著的性能提升。以DINOv2为例:

  • 在PASCAL VOC 2012语义分割任务上,mIoU从83.60%提升到84.84%
  • 在ADE20K语义分割任务上,mIoU从47.29%提升到48.66%
  • 在NYU Depth V2深度估计任务上,相对误差从0.1238降低到0.1200
  • 在PASCAL VOC目标检测任务上,mAP从81.4%提升到81.9%

这些结果充分证明了DVT在消除ViT特征图伪影方面的有效性,以及它在提升ViT下游任务性能方面的巨大潜力。

DVT的工作原理可视化

为了更直观地理解DVT的工作原理,研究人员提供了一系列可视化结果。以DINOv2 ViT-Base模型为例:

DVT工作原理示例

从左到右,各列分别表示:

  1. 输入裁剪图像
  2. 原始DINOv2输出
  3. 原始输出的KMeans聚类结果
  4. 原始输出的L2特征范数
  5. 原始输出中中心patch与其他patch的相似度
  6. DVT去噪后的输出
  7. 去噪输出的KMeans聚类结果
  8. 去噪输出的L2特征范数
  9. 去噪输出中中心patch与其他patch的相似度
  10. 分解出的共享伪影
  11. 共享伪影的L2范数
  12. 真实残差误差
  13. 预测的残差项
  14. 共享伪影和预测残差项的组合

从这些可视化结果中,我们可以清晰地看到DVT如何有效地消除了特征图中的网格状伪影,使得特征表示更加清晰和语义一致。

DVT的潜在应用

DVT的成功不仅仅局限于提升ViT在特定任务上的性能,它还揭示了ViT特征中潜在的一些有趣属性:

  1. 对象突出性:通过对去噪后特征进行PCA分析,研究人员发现第二主成分能很好地捕捉图像中主要对象的突出性。这一发现可能对无监督目标检测和分割任务有重要启示。

  2. 特征范数作为对象指示器:去噪后特征的L2范数被发现可以作为一个有效的对象指示器,这在原始ViT特征中并不明显。

  3. 改进的特征聚类:去噪后的特征在KMeans聚类时表现出更好的语义一致性,这对于无监督语义分割等任务可能有重要价值。

这些发现为ViT在更广泛的计算机视觉任务中的应用开辟了新的可能性。

结论与展望

Denoising Vision Transformers (DVT)为解决ViT特征图中的伪影问题提供了一个简单而有效的解决方案。通过消除这些伪影,DVT不仅显著提升了ViT在多个下游任务中的性能,还揭示了ViT特征中一些潜在的有趣属性。

这项研究工作提醒我们,尽管ViT在许多任务上取得了令人印象深刻的性能,但其内部表示仍然存在一些问题。DVT的成功也鼓励我们重新评估ViT的设计,特别是在位置编码的使用方面。

未来的研究方向可能包括:

  1. 探索DVT在更多视觉任务中的应用,如图像生成、视频理解等。
  2. 研究如何将DVT的思想整合到ViT的训练过程中,从源头上减少伪影的产生。
  3. 利用DVT揭示的ViT特征属性,开发新的无监督或自监督学习方法。

总的来说,DVT为提升ViT的性能和可解释性开辟了一个新的研究方向,有望推动计算机视觉领域的进一步发展。研究人员已经公开了DVT的代码和模型检查点,这将有助于更多研究者和开发者在此基础上进行进一步的探索和应用。

avatar
0
0
0
相关项目
Project Cover

Denoising-ViT

Denoising Vision Transformers (DVT)是一种新型方法,用于消除视觉Transformer (ViT)特征图中的视觉伪影。DVT通过去除这些伪影,显著提升了ViT在语义分割和深度估计等密集识别任务中的表现。实验结果表明,DVT能有效改善MAE、DINO、DINOv2等多种预训练ViT模型在PASCAL VOC、ADE20K和NYU-D等数据集上的下游任务性能。

Project Cover

vit_base_patch32_224.augreg_in21k_ft_in1k

ViT图像分类模型在ImageNet-21k上训练并在ImageNet-1k上微调,采用数据增强和正则化,适用于图像识别和特征提取。模型包含88.2M参数,通过PyTorch实现,支持多种应用场景。

Project Cover

convnext-large-384

ConvNeXT是一个受Vision Transformers启发的卷积模型,通过在ImageNet-1k上以384x384分辨率训练而成,旨在提高图像分类效果。研究显示,该模型在性能上优于传统模型,并基于ResNet进行了现代化改造。开发者Liu等人在相关论文中介绍了这一模型,该模型可用于分类任务,亦可在Hugging Face平台上进行任务微调。

Project Cover

convnext-tiny-224

ConvNeXT是一款卷积模型,具有优于Vision Transformers的表现。设计灵感源于Swin Transformer,并对ResNet进行了现代化调整,专注于图像分类。ConvNeXT-tiny-224在ImageNet-1k数据集训练后,提供高效的分类能力。模型集线器提供适用不同任务的微调版本。

Project Cover

twins_svt_large.in1k

Twins-SVT是一个利用空间注意力机制的图像分类模型,在ImageNet-1k上训练,具备99.3M参数及15.1 GMACs。通过timm库调用,能有效用于图像识别与特征嵌入工作。

最新项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号