GRES: 广义指示表达式分割

🏠[项目主页] 📄[arXiv] 📄[PDF] 🔥[新数据集下载]

本仓库包含CVPR2023论文的代码：

GRES: 广义指示表达式分割
刘畅, 丁恒辉, 江旭东
CVPR 2023 亮点论文, 接收率 2.5%

更新

(2023/08/29) 我们已更新并重新组织了数据集文件。请下载最新版本的训练/验证/测试A/测试B数据集！（注意：训练表达式未变，因此不会影响训练。但部分ref_id和sent_id已重新编号以便更好地组织。）
(2023/08/16) 发布了新的大规模指示视频分割数据集MeViS。

安装：

代码在CUDA 11.8、Pytorch 1.11.0和Detectron2 0.6环境下测试通过。

按照手册安装Detectron2
在gres_model/modeling/pixel_decoder/ops目录下运行sh make.sh
安装其他所需包：pip -r requirements.txt
按照datasets/DATASET.md准备数据集

推理

python train_net.py \
    --config-file configs/referring_swin_base.yaml \
    --num-gpus 8 --dist-url auto --eval-only \
    MODEL.WEIGHTS [权重路径] \
    OUTPUT_DIR [输出目录]

训练

首先，下载骨干网络权重（swin_base_patch4_window12_384_22k.pkl）并使用脚本将其转换为detectron2格式：

wget https://github.com/SwinTransformer/storage/releases/download/v1.0.0/swin_base_patch4_window12_384_22k.pth
python tools/convert-pretrained-swin-model-to-d2.py swin_base_patch4_window12_384_22k.pth swin_base_patch4_window12_384_22k.pkl

然后开始训练：

python train_net.py \
    --config-file configs/referring_swin_base.yaml \
    --num-gpus 8 --dist-url auto \
    MODEL.WEIGHTS [权重路径] \
    OUTPUT_DIR [权重路径]

注意：您可以在训练命令后添加自定义配置选项。例如：

SOLVER.IMS_PER_BATCH 48 
SOLVER.BASE_LR 0.00001

完整的基础配置列表，请参见configs/referring_R50.yaml和configs/Base-COCO-InstanceSegmentation.yaml

模型

更新：我们已添加对ResNet-50和Swin-Tiny骨干网络的支持！欢迎在您的工作中使用和报告这些资源友好型模型。

骨干网络	cIoU	gIoU
Resnet-50	39.53	38.62
Swin-Tiny	57.73	56.86
Swin-Base	62.42	63.60

所有模型可从以下链接下载：

Onedrive

致谢

本项目基于refer、Mask2Former、Detectron2和VLT。非常感谢这些作者的出色工作！

BibTeX

如果GRES对您的研究有帮助，请考虑引用。

@inproceedings{GRES,
  title={{GRES}: Generalized Referring Expression Segmentation},
  author={Liu, Chang and Ding, Henghui and Jiang, Xudong},
  booktitle={CVPR},
  year={2023}
}
@article{VLT,
  title={{VLT}: Vision-language transformer and query generation for referring segmentation},
  author={Ding, Henghui and Liu, Chang and Wang, Suchen and Jiang, Xudong},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  year={2023},
  publisher={IEEE}
}
@inproceedings{MeViS,
  title={{MeViS}: A Large-scale Benchmark for Video Segmentation with Motion Expressions},
  author={Ding, Henghui and Liu, Chang and He, Shuting and Jiang, Xudong and Loy, Chen Change},
  booktitle={ICCV},
  year={2023}
}

ReLA

GRES: 广义指示表达式分割

更新

安装：

推理

训练

模型

致谢

BibTeX