重新审视图像金字塔结构以实现高分辨率显著目标检测(InSPyReNet)
重新审视图像金字塔结构以实现高分辨率显著目标检测(InSPyReNet)的PyTorch官方实现
将出现在第16届亚洲计算机视觉会议(ACCV2022)
Taehun Kim, Kunhee Kim, Joonyeong Lee, Dongmin Cha, Jiho Lee, Daijin Kim
摘要: 显著目标检测(SOD)最近受到关注,但对高分辨率(HR)图像的研究较少。 不幸的是,与低分辨率(LR)图像相比,HR图像及其像素级标注肯定更加耗时费力。 因此,我们提出了一种基于图像金字塔的SOD框架,逆显著性金字塔重建网络(InSPyReNet),可以在不使用任何HR数据集的情况下进行HR预测。 我们设计InSPyReNet以生成严格的显著性图金字塔结构,这使得可以通过基于金字塔的图像混合来集成多个结果。 对于HR预测,我们设计了一种金字塔混合方法,该方法从同一图像的一对LR和HR尺度合成两个不同的图像金字塔,以克服有效感受野(ERF)差异。我们在公开的LR和HR SOD基准上进行的广泛评估表明,InSPyReNet在各种SOD指标和边界准确性上超越了最先进(SotA)方法。
目录
新闻 :newspaper:
[2022.10.04] TasksWithCode在博客中提到了我们的工作,并在Colab上复现了我们的工作。感谢您的关注!
[2022.10.20] 我们在二分图像分割数据集(DIS5K)上训练了我们的模型,并展示了有竞争力的结果!训练的检查点和预计算的分割掩码可在模型库)中获得。您还可以在结果部分查看我们的定性和定量结果。
[2022.10.28] 现在可以使用最新的pytorch进行多GPU训练。 [2022.10.31] TasksWithCode提供了一个基于HuggingFace的出色网页演示。访问网页应用并尝试使用您自己的图像!
[2022.11.09] :car: 基于InSPyReNet构建的驾驶场景车道分割现已在LaneSOD
仓库中提供。
[2022.11.18] 我将在第16届亚洲计算机视觉会议(ACCV2022)上发言。如果您参加了这次活动,请查看我的演讲!#ACCV2022 #澳门 - 通过#Whova活动应用
[2022.11.23] 我们已将我们的工作发布为pypi包。请访问transparent-background
下载我们的工具并在您的机器上试用。它可以作为命令行工具和Python API使用。
[2023.01.18] rsreetech分享了一个使用colab的transparent-background
pypi包教程。:tv: [Youtube]
演示 :rocket:
图像示例 | 视频示例 |
---|---|
<img src=./figures/demo_image.gif height=200px> | <img src=./figures/demo_video.gif height=200px> |
应用 :video_game:
这里是我们工作的一些应用/扩展。
网页应用 <img src=https://huggingface.co/front/assets/huggingface_logo-noborder.svg height="20px" width="20px">
TasksWithCode在HuggingFace上提供了网页应用来生成您自己的结果!
网页演示 |
---|
<img src=./figures/demo_webapp.gif height=200px> |
命令行工具 / Python API :pager:
尝试使用我们的模型作为命令行工具或Python API。有关如何使用的更多详细信息,请访问transparent-background
。
pip install transparent-background
车道分割 :car:
我们在LaneSOD
中将我们的模型扩展到检测驾驶场景中的车道标记
车道分割 |
---|
<img src=https://github.com/plemeri/LaneSOD/blob/main/figures/Teaser.gif height=200px> |
简易下载 :cake:
如何使用简易下载
下载每个数据集和检查点是相当麻烦的,即使对我来说也是如此 :zzz:。相反,您可以使用以下单个命令下载我们提供的数据,包括ImageNet预训练骨干网络检查点
、训练数据集
、用于基准测试的测试数据集
、预训练模型检查点
、预计算显著性图
。
python utils/download.py --extra --dest [DEST]
--extra, -e
: 不使用此参数时,将只下载我们主要论文中的数据集、检查点和结果。否则,将下载所有数据,包括补充材料和DIS5K结果。--dest [DEST], -d [DEST]
: 如果您想指定目标位置,请使用此参数。它将自动在data
和snapshots
内创建目标文件夹的符号链接。如果您想在其他物理磁盘上下载数据,请使用此参数。否则,它将下载到此仓库文件夹内。
入门指南 :flight_departure:
请参阅getting_started.md了解如何在基准测试上进行训练、测试和评估,以及在您自己的图像上进行推理。
模型库 :giraffe:
请参阅model_zoo.md下载预训练模型和预计算显著性图。
结果 :100:
定量结果
LR基准 | HR基准 | HR基准(使用额外数据库训练) | DIS |
---|---|---|---|
<img src=./figures/fig_quantitative.png height=200px> | <img src=./figures/fig_quantitative2.png height=200px> | <img src=./figures/fig_quantitative3.png height=200px> | <img src=./figures/fig_quantitative4.png height=200px> |
定性结果
DAVIS-S & HRSOD | UHRSD | UHRSD (高分辨率尺度) | DIS |
---|---|---|---|
<img src=./figures/fig_qualitative.png height=200px> | <img src=./figures/fig_qualitative2.png height=200px> | <img src=./figures/fig_qualitative3.jpg height=200px> | <img src=./figures/fig_qualitative_dis.png height=200px> |
引用
@inproceedings{kim2022revisiting,
title={Revisiting Image Pyramid Structure for High Resolution Salient Object Detection},
author={Kim, Taehun and Kim, Kunhee and Lee, Joonyeong and Cha, Dongmin and Lee, Jiho and Kim, Daijin},
booktitle={Proceedings of the Asian Conference on Computer Vision},
pages={108--124},
year={2022}
}
致谢
本研究得到韩国科学技术信息通信部(MSIT)资助的信息通信规划评估院(IITP)资助 (No.2017-0-00897,智能车辆物体检测与识别开发)和 (No.B0101-15-0266,大规模实时数据分析高性能视觉大数据发现平台开发)
特别感谢 :tada:
- TasksWithCode团队分享我们的工作并制作了最出色的网页应用演示。
参考文献
相关工作
资源
-
骨干网络: Res2Net, Swin Transformer
-
数据集
-
评估工具包
- SOD指标 (如S-measure): PySOD指标
- 边界指标 (mBA): CascadePSP