项目介绍:regnetz_c16.ra3_in1k
项目概述
Regnetz_c16.ra3_in1k是一个用于图像分类的深度学习模型。该模型由Ross Wightman基于ImageNet-1k数据集进行训练,并通过timm
库实现。此模型属于RegNetZ系列,通过不同的组大小和层配置来探讨模型的性能优化,与通常的论文模型结构略有不同。
RegNetZ模型类似于EfficientNets架构,使用线性(非激活)块输出和反向瓶颈(中间块扩展)设计。以下是一些不同配置的模型示例:
- B16:大约1.5GF,256x256图像输入,组宽为16,单层起始模块。
- C16:大约2.5GF,256x256图像输入,组宽为16,单层起始模块。
- D32:大约6GF,256x256图像输入,组宽为32,分层三层起始模块,无池化。
- D8:大约4GF,256x256图像输入,组宽为8,分层三层起始模块,无池化。
- E8:大约10GF,256x256图像输入,组宽为8,分层三层起始模块,无池化。
该模型通过BYOBNet(Bring-Your-Own-Blocks Network)
进行实现,具备高度的灵活性,允许自定义以下内容:
- 模块和阶段布局
- 起始模块的布局
- 输出步幅(膨胀)
- 激活和标准化层
- 通道和空间/自注意力层
此外,该模型还拥有许多timm
库常见的功能特性,如随机深度、梯度检查点、分层学习率衰减和各阶段特征提取。
模型细节
- 模型类型:图像分类/特征骨干
- 模型统计:
- 参数数量(百万):13.5
- GMACs:2.5
- 激活(百万):16.6
- 图像尺寸:训练时为256x256,测试时为320x320
- 论文参考:快速且准确的模型缩放
- 数据集:ImageNet-1k
- 原始实现:GitHub链接
模型使用
图像分类
在图像分类的应用中,可以通过加载预训练模型regnetz_c16.ra3_in1k
来进行预测,使用模型处理图像并获得分类结果。
特征图提取
通过特征图提取,用户可以获取输入图像的多层特征图,从而更好地理解模型的中间表示。
图像嵌入
图像嵌入可以用于生成输入图像的特征向量,便于在其他任务中使用,比如图像搜索或高维数据分析。
模型比较
该模型与其他RegNetZ和类似模型的对比信息可以在timm
的模型结果中查找。各种不同的配置下性能表现指标各异,不同的训练标签如ra_in1k、ra3_in1k等对应着不同的训练配置和权重。
以上是关于regnetz_c16.ra3_in1k项目的详细介绍。通过这款模型,可以在图像识别和特征提取等领域实现较为优异的性能,是图像处理和深度学习研究的有力工具。