MindCV

英文 | 中文

简介

MindCV是一个基于MindSpore的开源计算机视觉研发工具箱。它收集了一系列经典和前沿的视觉模型，如ResNet和SwinTransformer，以及它们的预训练权重和训练策略。为了提高性能，还提供了自动增强等前沿方法。通过解耦的模块设计，可以轻松地将MindCV应用或适配到您自己的计算机视觉任务中。

以下是对应的mindcv版本和支持的mindspore版本。

mindcv	mindspore
main	master
v0.4.0	2.3.0
0.3.0	2.2.10
0.2	2.0
0.1	1.8

主要特性

易用性。 MindCV将视觉框架分解为各种可配置的组件。使用MindCV可以轻松自定义数据管道、模型和学习流程：

>>> import mindcv
# 创建数据集
>>> dataset = mindcv.create_dataset('cifar10', download=True)
# 创建模型
>>> network = mindcv.create_model('resnet50', pretrained=True)

用户可以通过一行命令定制和启动迁移学习或训练任务。

# 一行命令实现迁移学习
python train.py --model=swin_tiny --pretrained --opt=adamw --lr=0.001 --data_dir=/path/to/data

最先进的技术。 MindCV提供了各种基于CNN和Transformer的视觉模型，包括SwinTransformer。提供了它们的预训练权重和性能报告，帮助用户选择和重用合适的模型：
灵活性和高效性。 MindCV基于MindSpore构建，MindSpore是一个可以在不同硬件平台（GPU/CPU/Ascend）上运行的高效深度学习框架。它支持高效的图模式和灵活的动态图模式。

模型库

使用MindCV训练的模型性能总结在这里，提供了训练配方和权重。

模型介绍和训练细节可以在configs下的每个子文件夹中查看。

安装

详见安装指南。

快速入门

动手教程

要开始使用MindCV，请参阅快速入门，它将带您快速了解每个关键组件和训练/验证/预测流程。

以下是一些代码片段供您体验。

>>> import mindcv
# 列出并查找预训练的视觉模型
>>> mindcv.list_models("swin*", pretrained=True)
['swin_tiny']
# 创建模型对象
>>> network = mindcv.create_model('swin_tiny', pretrained=True)

# 验证其准确性
python validate.py --model=swin_tiny --pretrained --dataset=imagenet --val_split=validation
# {'Top_1_Accuracy': 0.80824, 'Top_5_Accuracy': 0.94802, 'loss': 1.7331367141008378}

图像分类演示

右键单击下面的图像并保存为dog.jpg。

使用预训练的最先进模型对下载的图像进行分类：

python infer.py --model=swin_tiny --image_path='./dog.jpg'
# {'Labrador retriever': 0.5700152, 'golden retriever': 0.034551315, 'kelpie': 0.010108651, 'Chesapeake Bay retriever': 0.008229004, 'Walker hound, Walker foxhound': 0.007791956}

排名第一的预测结果是拉布拉多猎犬，这正是这只可爱狗狗的品种。

训练

使用train.py可以轻松地在标准或自定义数据集上训练模型，其中训练策略（如数据增强、学习率调度）可以通过外部参数或yaml配置文件进行配置。

单机训练

# 单机训练
python train.py --model=resnet50 --dataset=cifar10 --dataset_download

以上是在CPU/GPU/Ascend设备上使用CIFAR10数据集训练ResNet50的示例

分布式训练

对于ImageNet等大型数据集，有必要在多个设备上进行分布式训练。这可以通过mpirun和MindSpore支持的并行特性来实现。

# 分布式训练
# 假设你有4个GPU/NPU
mpirun -n 4 python train.py --distribute \
    --model=densenet121 --dataset=imagenet --data_dir=/path/to/imagenet

注意：如果脚本由root用户执行，必须向mpirun添加--allow-run-as-root参数。

详细的参数定义可以在config.py中查看，也可以通过运行python train.py --help来查看。

要恢复训练，请设置--ckpt_path和--ckpt_save_dir参数。最后停止的epoch的优化器状态（包括学习率）也会被恢复。

配置和训练策略

你可以通过指定外部参数或编写yaml配置文件来配置你的模型和其他组件。以下是使用预设yaml文件进行训练的示例。

mpirun --allow-run-as-root -n 4 python train.py -c configs/squeezenet/squeezenet_1.0_gpu.yaml

预定义训练策略： 我们目前提供了20多个在ImageNet上达到最先进结果的训练方案。详情请查看configs文件夹。欢迎将这些训练策略应用到你自己的模型上以提高性能，只需修改yaml文件即可轻松完成。

在ModelArts/OpenI平台上训练

要在ModelArts或OpenI云平台上运行训练：

1. 在云平台上创建一个新的训练任务。
2. 在网站UI界面上添加运行参数`config`并指定yaml配置文件的路径。
3. 在网站UI界面上添加运行参数`enable_modelarts`并设置为True。
4. 在网站上填写其他空白处并启动训练任务。

图模式和PyNative模式：

默认情况下，训练流程train.py在MindSpore的图模式下运行，该模式通过编译静态图优化了效率和并行计算。相比之下，PyNative模式优化了灵活性和易调试性。你可以修改参数--mode来切换到纯PyNative模式进行调试。

混合模式：

带有mindspore.jit的PyNative模式是MindSpore中兼顾灵活性和效率的混合模式。要应用带有mindspore.jit的PyNative模式进行训练，请运行train_with_func.py，例如：

python train_with_func.py --model=resnet50 --dataset=cifar10 --dataset_download  --epoch_size=10

注意：这是一个正在改进中的实验性功能。在MindSpore 1.8.1或更早版本上不稳定。

验证

要评估模型性能，请运行validate.py

# 验证训练好的检查点
python validate.py --model=resnet50 --dataset=imagenet --data_dir=/path/to/data --ckpt_path=/path/to/model.ckpt

训练时验证

你也可以通过启用--val_while_train选项在训练过程中跟踪验证准确率。

python train.py --model=resnet50 --dataset=cifar10 \
    --val_while_train --val_split=test --val_interval=1

每个epoch的训练损失和验证准确率将保存在{ckpt_save_dir}/results.log中。

更多关于训练和验证的示例可以在examples中查看。

教程

我们提供以下jupyter notebook教程来帮助用户学习使用MindCV。

模型列表

目前，MindCV支持以下列出的模型系列。更多带有预训练权重的模型正在开发中，将很快发布。

支持的模型

* 大规模迁移ResNetV2（BiT） - https://arxiv.org/abs/1912.11370 * ConvNeXt - https://arxiv.org/abs/2201.03545 * ConViT（软卷积归纳偏置视觉Transformer）- https://arxiv.org/abs/2103.10697 * DenseNet - https://arxiv.org/abs/1608.06993 * DPN（双路径网络） - https://arxiv.org/abs/1707.01629 * EfficientNet（MBConvNet系列）https://arxiv.org/abs/1905.11946 * EfficientNet V2 - https://arxiv.org/abs/2104.00298 * GhostNet - https://arxiv.org/abs/1911.11907 * GoogLeNet - https://arxiv.org/abs/1409.4842 * Inception-V3 - https://arxiv.org/abs/1512.00567 * Inception-ResNet-V2和Inception-V4 - https://arxiv.org/abs/1602.07261 * MNASNet - https://arxiv.org/abs/1807.11626 * MobileNet-V1 - https://arxiv.org/abs/1704.04861 * MobileNet-V2 - https://arxiv.org/abs/1801.04381 * MobileNet-V3（具有高效头部的MBConvNet） - https://arxiv.org/abs/1905.02244 * NASNet - https://arxiv.org/abs/1707.07012 * PNasNet - https://arxiv.org/abs/1712.00559 * PVT（金字塔视觉Transformer） - https://arxiv.org/abs/2102.12122 * PoolFormer模型 - https://github.com/sail-sg/poolformer * RegNet - https://arxiv.org/abs/2003.13678 * RepMLP https://arxiv.org/abs/2105.01883 * RepVGG - https://arxiv.org/abs/2101.03697 * ResNet（v1b/v1.5） - https://arxiv.org/abs/1512.03385 * ResNeXt - https://arxiv.org/abs/1611.05431 * Res2Net - https://arxiv.org/abs/1904.01169 * ReXNet - https://arxiv.org/abs/2007.00992 * ShuffleNet v1 - https://arxiv.org/abs/1707.01083 * ShuffleNet v2 - https://arxiv.org/abs/1807.11164 * SKNet - https://arxiv.org/abs/1903.06586 * SqueezeNet - https://arxiv.org/abs/1602.07360 * Swin Transformer - https://arxiv.org/abs/2103.14030 * VGG - https://arxiv.org/abs/1409.1556 * Visformer - https://arxiv.org/abs/2104.12533 * Vision Transformer（ViT） - https://arxiv.org/abs/2010.11929 * Xception - https://arxiv.org/abs/1610.02357

有关模型性能和预训练权重的详细信息，请参见configs。

支持的算法

数据增强
- AutoAugment
- RandAugment
- 重复增强
- RandErasing（Cutout）
- CutMix
- MixUp
- RandomResizeCrop
- 颜色抖动、翻转等
优化器
- Adam
- AdamW
- Lion
- Adan（实验性）
- AdaGrad
- LAMB
- Momentum
- RMSProp
- SGD
- NAdam
学习率调度器
- 预热余弦衰减
- 步进学习率
- 多项式衰减
- 指数衰减
正则化
- 权重衰减
- 标签平滑
- 随机深度（取决于网络）
- Dropout（取决于网络）
损失函数
- 交叉熵（支持类别权重和辅助logit）
- 二元交叉熵（支持类别权重和辅助logit）
- 软交叉熵损失（如果使用mixup或标签平滑，则自动启用）
- 软二元交叉熵损失（如果使用mixup或标签平滑，则自动启用）
集成
- 预热指数移动平均（EMA）

如何贡献

我们欢迎各种形式的贡献，包括问题报告和 PR，以使 MindCV 变得更好。

请参考 CONTRIBUTING.md 了解贡献指南。请遵循模型模板和指南，贡献适合整体接口的模型 :)

许可证

本项目遵循 Apache License 2.0 开源许可证。

致谢

MindCV 是由 MindSpore 团队、西安电子科技大学和西安交通大学共同开发的开源项目。衷心感谢所有参与的研究人员和开发人员在这个项目上的辛勤工作。我们也感谢 OpenI 提供的计算资源。

引用

如果您在研究中发现本项目有用，请考虑引用：

@misc{MindSpore Computer Vision 2022,
    title={{MindSpore Computer Vision}:MindSpore Computer Vision Toolbox and Benchmark},
    author={MindSpore Vision Contributors},
    howpublished = {\url{https://github.com/mindspore-lab/mindcv/}},
    year={2022}
}

mindcv