VNext:
- VNext 是基于 Detectron2 的下一代视频实例识别框架。
- 目前它提供了先进的在线和离线视频实例分割算法,以及用于以对象为中心的视频分割任务的运动模型。
- 我们将继续更新和改进它,为视频实例识别领域提供一个统一高效的框架,以促进这个领域的发展。
迄今为止,VNext 包含以下算法的官方实现:
InstMove: 用于以对象为中心的视频分割的实例运动(CVPR 2023)
IDOL: 为视频实例分割在线模型辩护(ECCV2022 口头报告)
SeqFormer: 用于视频实例分割的序列 Transformer(ECCV2022 口头报告)
新闻!!:
- InstMove 被 CVPR 2023 接收,代码和模型可以在这里找到!
- IDOL 被 ECCV 2022 接收为口头报告!
- SeqFormer 被 ECCV 2022 接收为口头报告!
- IDOL 在第四届大规模视频对象分割挑战赛(CVPR2022)的视频实例分割赛道中获得第一名。
入门指南
- 关于安装和数据准备,请参阅 INSTALL.md 以获取更多详细信息。
- 关于 InstMove 的训练、评估、插件和模型库,请参阅 InstMove.md
- 关于 IDOL 的训练、评估和模型库,请参阅 IDOL.md
- 关于 SeqFormer 的训练、评估和模型库,请参阅 SeqFormer.md
IDOL
Junfeng Wu, Qihao Liu, Yi Jiang, Song Bai, Alan Yuille, Xiang Bai
简介
-
近年来,视频实例分割(VIS)主要由离线模型推进,而在线模型通常比同期的离线模型在性能上低 10 个 AP 以上,这是一个巨大的缺点。
-
通过解析当前的在线模型和离线模型,我们证明性能差距的主要原因是容易出错的关联,并提出了 IDOL,它在三个基准测试中都优于所有在线和离线方法。
-
IDOL 在第四届大规模视频对象分割挑战赛(CVPR2022)的视频实例分割赛道中获得第一名。
OVIS 验证集上的可视化结果
定量结果
YouTube-VIS 2019
OVIS 2021
SeqFormer
SeqFormer: 用于视频实例分割的序列 Transformer
Junfeng Wu, Yi Jiang, Song Bai, Wenqing Zhang, Xiang Bai
简介
-
SeqFormer 在每一帧中定位实例,并聚合时间信息以学习视频级实例的强大表示,用于动态预测每一帧上的掩码序列。
-
SeqFormer 是一个稳健、准确、简洁的离线模型,实例跟踪自然实现,无需跟踪分支或后处理。
YouTube-VIS 2019 验证集上的可视化结果
定量结果
YouTube-VIS 2019
YouTube-VIS 2021
引用
@inproceedings{seqformer,
title={SeqFormer: Sequential Transformer for Video Instance Segmentation},
author={Wu, Junfeng and Jiang, Yi and Bai, Song and Zhang, Wenqing and Bai, Xiang},
booktitle={ECCV},
year={2022},
}
@inproceedings{IDOL,
title={In Defense of Online Models for Video Instance Segmentation},
author={Wu, Junfeng and Liu, Qihao and Jiang, Yi and Bai, Song and Yuille, Alan and Bai, Xiang},
booktitle={ECCV},
year={2022},
}
致谢
本仓库基于 detectron2、Deformable DETR、VisTR 和 IFC。感谢他们出色的工作。