Vision-RWKV
"Vision-RWKV:使用类RWKV架构实现高效可扩展的视觉感知"的官方实现。
新闻🚀🚀🚀
2024/04/14
:我们在分类任务中支持了rwkv6,性能更高!2024/03/04
:我们发布了Vision-RWKV的代码和模型。
亮点
- 高分辨率效率:能够流畅处理具有全局感受野的高分辨率图像。
- 可扩展性:使用大规模数据集进行预训练,具备稳定的扩展能力。
- 卓越性能:在分类任务中取得了优于ViTs的性能。在密集预测任务中,以更低的计算量和更快的速度超越了基于窗口的ViTs,并与全局注意力ViTs相当。
- 高效替代:有能力成为综合视觉任务中ViT的替代主干网络。
<图片1>
概览
<图片2>
计划
- 支持RWKV6作为VRWKV6
- 发布VRWKV-L
- 发布VRWKV-T/S/B
模型库
预训练模型
模型 | 尺寸 | 预训练 | 下载 |
---|---|---|---|
VRWKV-L | 192 | ImageNet-22K | 检查点 |
图像分类(ImageNet-1K)
模型 | 尺寸 | 参数量 | FLOPs | Top-1准确率 | 下载 |
---|---|---|---|---|---|
VRWKV-T | 224 | 6.2M | 1.2G | 75.1 | 检查点 | 配置 |
VRWKV-S | 224 | 23.8M | 4.6G | 80.1 | 检查点 | 配置 |
VRWKV-B | 224 | 93.7M | 18.2G | 82.0 | 检查点 | 配置 |
VRWKV-L | 384 | 334.9M | 189.5G | 86.0 | 检查点 | 配置 |
VRWKV6-T | 224 | 7.6M | 1.6G | 76.6 | 检查点 | 配置 |
VRWKV6-S | 224 | 27.7M | 5.6G | 81.1 | 检查点 | 配置 |
VRWKV6-B | 224 | 104.9M | 20.9G | 82.6 | 检查点 | 配置 |
- VRWKV-L在ImageNet-22K上进行预训练,然后在ImageNet-1K上进行微调。
- 我们使用internimage代码库训练VRWKV-L以获得更高的速度。
使用Mask-RCNN头的目标检测(COCO)
模型 | 参数量 | 浮点运算次数 | 边界框AP | 掩码AP | 下载链接 |
---|---|---|---|---|---|
VRWKV-T | 8.4M | 67.9G | 41.7 | 38.0 | 检查点 | 配置 |
VRWKV-S | 29.3M | 189.9G | 44.8 | 40.2 | 检查点 | 配置 |
VRWKV-B | 106.6M | 599.0G | 46.8 | 41.7 | 检查点 | 配置 |
VRWKV-L | 351.9M | 1730.6G | 50.6 | 44.9 | 检查点 | 配置 |
- 我们在此表中报告了主干网络的参数量和浮点运算次数。
使用UperNet头部的语义分割(ADE20K数据集)
模型 | 参数量 | 浮点运算次数 | 平均交并比 | 下载链接 |
---|---|---|---|---|
VRWKV-T | 8.4M | 16.6G | 43.3 | 检查点 | 配置 |
VRWKV-S | 29.3M | 46.3G | 47.2 | 检查点 | 配置 |
VRWKV-B | 106.6M | 146.0G | 49.2 | 检查点 | 配置 |
VRWKV-L | 351.9M | 421.9G | 53.5 | 检查点 | 配置 |
- 我们在此表中报告了主干网络的参数量和浮点运算次数。
引用
如果本工作对您的研究有所帮助,请考虑引用以下BibTeX条目。
@article{duan2024vrwkv,
title={Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures},
author={Duan, Yuchen and Wang, Weiyun and Chen, Zhe and Zhu, Xizhou and Lu, Lewei and Lu, Tong and Qiao, Yu and Li, Hongsheng and Dai, Jifeng and Wang, Wenhai},
journal={arXiv preprint arXiv:2403.02308},
year={2024}
}
许可证
本仓库根据LICENSE文件中的Apache 2.0许可证发布。
致谢
Vision-RWKV的构建参考了以下项目的代码:RWKV、MMPretrain、MMDetection、MMSegmentation、ViT-Adapter、InternImage。感谢他们出色的工作!