CAT:用于图像恢复的跨聚合Transformer
近年来,Transformer架构被引入图像恢复领域并取得了惊人的效果。考虑到全局注意力的高计算复杂度,一些方法使用局部方形窗口来限制自注意力的范围。然而,这些方法缺乏不同窗口之间的直接交互,限制了建立长距离依赖关系的能力。为解决上述问题,研究人员提出了一种新的图像恢复模型 - 跨聚合Transformer(CAT)。
CAT的核心创新
CAT的核心是矩形窗口自注意力(Rwin-SA)机制。它在不同的头部并行使用水平和垂直矩形窗口注意力来扩大注意力区域,并跨不同窗口聚合特征。研究人员还引入了轴向移位操作,用于不同窗口之间的交互。此外,他们提出了局部互补模块来补充自注意力机制,将CNN的归纳偏置(如平移不变性和局部性)整合到Transformer中,实现全局-局部耦合。
优异的实验结果
大量实验表明,CAT在多个图像恢复应用中的性能优于最新的方法:
- 在图像超分辨率任务中,CAT-A模型在Urban100数据集上的PSNR达到27.89dB,SSIM达到0.8339。
- 在JPEG压缩伪影减少任务中,CAT模型在LIVE1数据集上的PSNR达到29.89dB,SSIM达到0.8295。
- 在真实图像去噪任务中,CAT模型在SIDD数据集上的PSNR达到40.01dB,SSIM达到0.9600。
这些结果都优于现有最先进的方法。
CAT的主要特点
-
创新的矩形窗口自注意力机制,扩大了注意力区域。
-
轴向移位操作,实现了不同窗口之间的交互。
-
局部互补模块,将CNN的归纳偏置整合到Transformer中。
-
在多种图像恢复任务中都取得了最先进的性能。
-
代码开源,便于其他研究者复现和改进。
CAT的潜在应用
CAT在图像超分辨率、JPEG压缩伪影减少和真实图像去噪等任务中展现出优异性能,这使得它在多个领域具有广阔的应用前景:
-
医学影像:提高医学图像的质量,辅助诊断。
-
安防监控:提升监控视频的清晰度。
-
遥感影像:改善卫星和航拍图像的细节。
-
数字内容创作:提升老旧影像的质量。
-
手机摄影:改善低光环境下的拍摄效果。
总结
CAT通过创新的矩形窗口自注意力机制和局部互补模块,在多种图像恢复任务中实现了最先进的性能。它不仅推动了图像恢复技术的发展,也为Transformer在计算机视觉领域的应用开辟了新的方向。未来,CAT有望在医疗、安防、遥感等多个领域发挥重要作用,为提升图像质量和视觉体验做出贡献。
随着深度学习和计算机视觉技术的不断进步,我们可以期待看到CAT在更多领域的应用,以及在其基础上发展出的更加强大的图像恢复模型。研究者们也将继续探索如何进一步提升模型的性能和效率,为实际应用提供更好的解决方案。