sebotnet33ts_256.a1h_in1k项目介绍
sebotnet33ts_256.a1h_in1k是一个基于BotNet架构的图像分类模型,由Ross Wightman在timm库中训练完成。这个模型结合了Squeeze-and-Excitation通道注意力机制和ResNet架构的优点,在ImageNet-1k数据集上进行了训练。
模型特点
- 模型类型:图像分类/特征骨干网络
- 参数量:13.7百万
- GMACs:3.9
- 激活量:17.5百万
- 输入图像尺寸:256 x 256
该模型基于"ResNet Strikes Back"论文中的A1配方进行了改进,使用了LAMB优化器,并增强了dropout、随机深度和RandAugment等技术。同时,它采用了带有预热的余弦学习率调度。
模型架构
sebotnet33ts_256.a1h_in1k的架构是使用timm库中灵活的BYOBNet(Bring-Your-Own-Blocks Network)实现的。这种架构允许配置以下元素:
- 块/阶段布局
- 块类型交错
- 茎部布局
- 输出步幅(膨胀)
- 激活和规范化层
- 通道和空间/自注意力层
此外,该模型还包含了timm库中常见的其他特性,如随机深度、梯度检查点、层级学习率衰减和每阶段特征提取等。
模型用途
-
图像分类:可以使用预训练模型对输入图像进行分类,输出前5个最可能的类别及其概率。
-
特征图提取:模型可以提取输入图像的多尺度特征图,这对于各种下游任务非常有用。
-
图像嵌入:可以使用模型提取图像的高级特征表示,得到固定维度的嵌入向量。
使用方法
用户可以通过timm库轻松加载和使用这个模型。对于图像分类任务,只需几行代码就可以完成模型的加载、图像预处理和推理过程。对于特征图提取和图像嵌入任务,也提供了相应的代码示例。
模型对比
研究者和开发者可以在timm的模型结果中探索这个模型的数据集和运行时指标,以便与其他模型进行比较和选择。
总的来说,sebotnet33ts_256.a1h_in1k是一个结合了多种先进技术的高效图像分类模型,适用于各种计算机视觉任务,为研究人员和开发者提供了一个强大的工具。