重新审视图像金字塔结构以实现高分辨率显著目标检测(InSPyReNet)

重新审视图像金字塔结构以实现高分辨率显著目标检测(InSPyReNet)的PyTorch官方实现

将出现在第16届亚洲计算机视觉会议(ACCV2022)

Taehun Kim, Kunhee Kim, Joonyeong Lee, Dongmin Cha, Jiho Lee, Daijin Kim

摘要: 显著目标检测(SOD)最近受到关注,但对高分辨率(HR)图像的研究较少。不幸的是,与低分辨率(LR)图像相比,HR图像及其像素级标注肯定更加耗时费力。因此,我们提出了一种基于图像金字塔的SOD框架,逆显著性金字塔重建网络(InSPyReNet),可以在不使用任何HR数据集的情况下进行HR预测。我们设计InSPyReNet以生成严格的显著性图金字塔结构,这使得可以通过基于金字塔的图像混合来集成多个结果。对于HR预测,我们设计了一种金字塔混合方法,该方法从同一图像的一对LR和HR尺度合成两个不同的图像金字塔,以克服有效感受野(ERF)差异。我们在公开的LR和HR SOD基准上进行的广泛评估表明,InSPyReNet在各种SOD指标和边界准确性上超越了最先进(SotA)方法。

新闻 :newspaper:

[2022.10.04] TasksWithCode在博客中提到了我们的工作,并在Colab上复现了我们的工作。感谢您的关注!

[2022.10.20] 我们在二分图像分割数据集(DIS5K)上训练了我们的模型,并展示了有竞争力的结果!训练的检查点和预计算的分割掩码可在模型库)中获得。您还可以在结果部分查看我们的定性和定量结果。

[2022.10.28] 现在可以使用最新的pytorch进行多GPU训练。 [2022.10.31] TasksWithCode提供了一个基于HuggingFace的出色网页演示。访问网页应用并尝试使用您自己的图像!

[2022.11.09] :car: 基于InSPyReNet构建的驾驶场景车道分割现已在LaneSOD仓库中提供。

[2022.11.18] 我将在第16届亚洲计算机视觉会议(ACCV2022)上发言。如果您参加了这次活动,请查看我的演讲!#ACCV2022 #澳门 - 通过#Whova活动应用

[2022.11.23] 我们已将我们的工作发布为pypi包。请访问transparent-background下载我们的工具并在您的机器上试用。它可以作为命令行工具和Python API使用。

[2023.01.18] rsreetech分享了一个使用colab的transparent-background pypi包教程。:tv: [Youtube]

演示 :rocket:

图像示例	视频示例
<img src=./figures/demo_image.gif height=200px>	<img src=./figures/demo_video.gif height=200px>

应用 :video_game:

这里是我们工作的一些应用/扩展。

网页应用 <img src=https://huggingface.co/front/assets/huggingface_logo-noborder.svg height="20px" width="20px">

TasksWithCode在HuggingFace上提供了网页应用来生成您自己的结果!

网页演示
<img src=./figures/demo_webapp.gif height=200px>

命令行工具 / Python API :pager:

尝试使用我们的模型作为命令行工具或Python API。有关如何使用的更多详细信息,请访问transparent-background。

pip install transparent-background

车道分割 :car:

我们在LaneSOD中将我们的模型扩展到检测驾驶场景中的车道标记

车道分割
<img src=https://github.com/plemeri/LaneSOD/blob/main/figures/Teaser.gif height=200px>

简易下载 :cake:

如何使用简易下载

下载每个数据集和检查点是相当麻烦的,即使对我来说也是如此 :zzz:。相反,您可以使用以下单个命令下载我们提供的数据,包括ImageNet预训练骨干网络检查点、训练数据集、用于基准测试的测试数据集、预训练模型检查点、预计算显著性图。

python utils/download.py --extra --dest [DEST]

--extra, -e: 不使用此参数时,将只下载我们主要论文中的数据集、检查点和结果。否则,将下载所有数据,包括补充材料和DIS5K结果。
--dest [DEST], -d [DEST]: 如果您想指定目标位置,请使用此参数。它将自动在data和snapshots内创建目标文件夹的符号链接。如果您想在其他物理磁盘上下载数据,请使用此参数。否则,它将下载到此仓库文件夹内。

如果您想下载特定的检查点或预计算图,请参阅入门指南和模型库。

入门指南 :flight_departure:

请参阅getting_started.md了解如何在基准测试上进行训练、测试和评估,以及在您自己的图像上进行推理。

模型库 :giraffe:

请参阅model_zoo.md下载预训练模型和预计算显著性图。

结果 :100:

定量结果

LR基准	HR基准	HR基准(使用额外数据库训练)	DIS
<img src=./figures/fig_quantitative.png height=200px>	<img src=./figures/fig_quantitative2.png height=200px>	<img src=./figures/fig_quantitative3.png height=200px>	<img src=./figures/fig_quantitative4.png height=200px>

定性结果

DAVIS-S & HRSOD	UHRSD	UHRSD (高分辨率尺度)	DIS
<img src=./figures/fig_qualitative.png height=200px>	<img src=./figures/fig_qualitative2.png height=200px>	<img src=./figures/fig_qualitative3.jpg height=200px>	<img src=./figures/fig_qualitative_dis.png height=200px>

引用

@inproceedings{kim2022revisiting,
  title={Revisiting Image Pyramid Structure for High Resolution Salient Object Detection},
  author={Kim, Taehun and Kim, Kunhee and Lee, Joonyeong and Cha, Dongmin and Lee, Jiho and Kim, Daijin},
  booktitle={Proceedings of the Asian Conference on Computer Vision},
  pages={108--124},
  year={2022}
}