#MobileViT
mobilevit_xs.cvnets_in1k - MobileViT 轻量级通用移动友好的视觉Transformer
特征提取Huggingface图像分类MobileViT模型timmGithub开源项目ImageNet-1k
MobileViT是一种轻量级视觉Transformer模型,专为移动设备设计。mobilevit_xs.cvnets_in1k版本在ImageNet-1k数据集上训练,仅有2.3M参数和1.1 GMACs计算量。该模型适用于图像分类、特征提取和嵌入生成等任务,平衡了性能和资源消耗。它融合了MobileNet的轻量化结构和Vision Transformer的强大特性,为资源受限环境提供了高效解决方案。
mobilevit-xx-small - 轻量级移动端视觉转换模型,适用于通用图像分类
图像分类ImageNet-1kMobileViTHuggingfaceGithub开源项目模型Transformer卷积神经网络
MobileViT模型的设计同时保证了轻量和低延迟性能,通过结合MobileNetV2和全局处理变换器块,适合各种图像分类应用。模型无需位置嵌入,已在ImageNet-1k数据集预训练并取得69%的top-1准确率。训练过程中采用简单的数据增强方法,可无须微调即可学到多尺度特征。目前支持PyTorch框架。