GRES: 广义指示表达式分割
🏠[项目主页] 📄[arXiv] 📄[PDF] 🔥[新数据集下载]
本仓库包含CVPR2023论文的代码:
GRES: 广义指示表达式分割
刘畅, 丁恒辉, 江旭东
CVPR 2023 亮点论文, 接收率 2.5%
更新
- (2023/08/29) 我们已更新并重新组织了数据集文件。请下载最新版本的训练/验证/测试A/测试B数据集!(注意:训练表达式未变,因此不会影响训练。但部分
ref_id
和sent_id
已重新编号以便更好地组织。) - (2023/08/16) 发布了新的大规模指示视频分割数据集MeViS。
安装:
代码在CUDA 11.8、Pytorch 1.11.0和Detectron2 0.6环境下测试通过。
- 按照手册安装Detectron2
- 在
gres_model/modeling/pixel_decoder/ops
目录下运行sh make.sh
- 安装其他所需包:
pip -r requirements.txt
- 按照
datasets/DATASET.md
准备数据集
推理
python train_net.py \
--config-file configs/referring_swin_base.yaml \
--num-gpus 8 --dist-url auto --eval-only \
MODEL.WEIGHTS [权重路径] \
OUTPUT_DIR [输出目录]
训练
首先,下载骨干网络权重(swin_base_patch4_window12_384_22k.pkl
)并使用脚本将其转换为detectron2格式:
wget https://github.com/SwinTransformer/storage/releases/download/v1.0.0/swin_base_patch4_window12_384_22k.pth
python tools/convert-pretrained-swin-model-to-d2.py swin_base_patch4_window12_384_22k.pth swin_base_patch4_window12_384_22k.pkl
然后开始训练:
python train_net.py \
--config-file configs/referring_swin_base.yaml \
--num-gpus 8 --dist-url auto \
MODEL.WEIGHTS [权重路径] \
OUTPUT_DIR [权重路径]
注意:您可以在训练命令后添加自定义配置选项。例如:
SOLVER.IMS_PER_BATCH 48
SOLVER.BASE_LR 0.00001
完整的基础配置列表,请参见configs/referring_R50.yaml
和configs/Base-COCO-InstanceSegmentation.yaml
模型
更新:我们已添加对ResNet-50和Swin-Tiny骨干网络的支持!欢迎在您的工作中使用和报告这些资源友好型模型。
骨干网络 | cIoU | gIoU |
---|---|---|
Resnet-50 | 39.53 | 38.62 |
Swin-Tiny | 57.73 | 56.86 |
Swin-Base | 62.42 | 63.60 |
所有模型可从以下链接下载:
致谢
本项目基于refer、Mask2Former、Detectron2和VLT。非常感谢这些作者的出色工作!
BibTeX
如果GRES对您的研究有帮助,请考虑引用。
@inproceedings{GRES,
title={{GRES}: Generalized Referring Expression Segmentation},
author={Liu, Chang and Ding, Henghui and Jiang, Xudong},
booktitle={CVPR},
year={2023}
}
@article{VLT,
title={{VLT}: Vision-language transformer and query generation for referring segmentation},
author={Ding, Henghui and Liu, Chang and Wang, Suchen and Jiang, Xudong},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
year={2023},
publisher={IEEE}
}
@inproceedings{MeViS,
title={{MeViS}: A Large-scale Benchmark for Video Segmentation with Motion Expressions},
author={Ding, Henghui and Liu, Chang and He, Shuting and Jiang, Xudong and Loy, Chen Change},
booktitle={ICCV},
year={2023}
}