#图像分类

caformer_b36.sail_in22k_ft_in1k - CAFormer图像分类模型基于MetaFormer设计
timm图像分类Huggingface特征提取开源项目模型GithubImageNetCAFormer
CAFormer基于MetaFormer架构,支持由ImageNet-22k预训练和ImageNet-1k微调,旨在增强图像识别能力。拥有98.8M参数与23.2 GMACs,擅长处理224x224像素图像。通过TIMM库访问,这款图像分类/特征骨干模型能够提升图像理解及特征提取,适用于图像分类、特征提取和图像嵌入等多种视觉任务。
flava-full - FLAVA模型的零样本图像和文本检索能力
模型限制开源项目模型GithubHuggingfaceFLAVA多模态自然语言理解图像分类
FLAVA模型基于70M图像文本对实现多模态统一架构,在计算机视觉和自然语言理解任务中展示了强大性能。该模型不依赖特定模态,与CLIP相似,可执行零样本图像分类与检索,非常适用于AI研究者探索其在多领域预训练中的应用及局限性。
vit-large-patch16-384 - Vision Transformer大模型,提升高分辨率图像分类表现
深度学习图像分类Huggingfacetransformer开源项目模型GithubVision TransformerImageNet
项目提供了预训练于ImageNet-21k并在ImageNet 2012上微调的Vision Transformer(ViT)大模型。ViT通过将图像分为固定大小的补丁并使用Transformer编码器进行解析,提升了分类精度和特征提取能力,支持高分辨率视觉识别任务并兼容PyTorch使用。
convnextv2-atto-1k-224 - ConvNeXt V2 提升卷积网络性能的先进图像分类模型
开源项目模型GithubHuggingfaceConvNeXt V2卷积神经网络FCMAE框架图像分类ImageNet-1K
ConvNeXt V2 是一种创新的图像分类模型,利用 FCMAE 框架在 ImageNet-1K 数据集上进行微调。该模型结合了全卷积掩码自编码器和新型 GRN 层,有效提升了在多项识别基准上的性能。模型能够进行图像分类,预测应用于 ImageNet 1,000 类问题,是计算机视觉任务的高效选择。
rexnet_150.nav_in1k - 高效的图像识别与特征提取
timmReXNet特征提取ImageNet-1k模型Github开源项目图像分类Huggingface
ReXNet是一款在ImageNet-1k数据集上预训练的图像分类模型,具有9.7M参数和0.9 GMACs,专为224x224尺寸图像设计。在timm库中实现模型调用,支持图像分类、特征地图提取及嵌入计算,堪称参数量与准确率之间的理想平衡,适用于深度学习研究和开发。
wide_resnet101_2.tv_in1k - 宽残差网络101_2图像分类与特征提取功能
wide_resnet101_2.tv_in1k特征提取ImageNet-1k模型Github开源项目图像分类ReLU激活Huggingface
Wide-ResNet101_2.tv_in1k是一种经ImageNet-1k数据训练的图像分类模型,采用ReLU激活、7x7卷积以及1x1卷积捷径降采样。该模型在图像分类和特征图提取方面表现优秀,可通过timm库轻松集成,是图像处理和计算机视觉领域的实用工具。
vit - 在Habana Gaudi HPU上高效运行ViT模型的配置指南
Optimum Habana开源项目模型GithubHuggingfaceHugging FaceGaudi处理器混合精度图像分类
了解如何使用Habana Gaudi HPU进行ViT模型高效训练和部署,提供如自定义AdamW和融合梯度剪裁等特定训练参数。支持bf16混合精度训练以提升性能和精度。探索Habana HPU在增强Transformer和Diffuser模型方面的应用。
vit_large_patch14_clip_336.openai_ft_in12k_in1k - ViT图像分类与特征提取模型
图像分类ImageNet-1kHuggingface预训练模型Github开源项目模型WIT-400MVision Transformer
OpenAI的ViT图像分类模型,利用CLIP在WIT-400M上预训练,并在ImageNet数据集上微调,适合多种视觉任务。其高性能参数为研究与开发提供强大支持,通过示例代码,可轻松实现图像分类与嵌入功能。
CLIP-convnext_base_w-laion_aesthetic-s13B-b82K - LAION-5B训练的ConvNeXt-Base CLIP模型
数据集ConvNext开源项目模型Github机器学习HuggingfaceCLIP图像分类
ConvNeXt-Base架构的CLIP模型在LAION-5B子集上完成训练,支持256x256和320x320两种图像分辨率。在ImageNet零样本分类评测中取得70.8%-71.7%的top-1准确率,样本效率超过同规模ViT-B/16模型。该模型主要用于研究领域,可执行零样本图像分类和图文检索等任务。
convnextv2_large.fcmae_ft_in22k_in1k - ConvNeXt-V2图像分类模型结合FCMAE预训练架构
ConvNeXt-V2模型比较ImageNet深度学习模型Github开源项目图像分类Huggingface
ConvNeXt-V2是一个大型图像分类模型,通过FCMAE框架预训练并在ImageNet数据集上微调。模型包含1.98亿参数,Top1准确率达87.26%,可用于图像分类、特征提取和嵌入等计算机视觉任务。其224x224的标准训练分辨率和多功能性使其成为视觉处理的实用选择。
mobilenetv4_conv_small.e2400_r224_in1k - MobileNet-V4图像分类模型简介
Github模型ImageNetMobileNetV4开源项目图像分类timmPyTorchHuggingface
MobileNetV4是一个利用ImageNet-1k数据集训练的图像分类模型,具有3.8M参数和0.2 GMACs的复杂度。该模型由timm库优化,使用了与MobileNet-V4论文一致的超参数。其训练和测试图像尺寸分别为224x224和256x256,适用于移动平台。更多信息可在PyTorch Image Models和相关论文中找到。
swinv2-base-patch4-window8-256 - 增强视觉Transformer模型,提供升级的容量与图像分辨率
Swin Transformer自监督预训练Github模型ImageNet开源项目图像分类Huggingface视觉Transformer
Swin Transformer v2是为图像分类和密集识别任务而设计的视觉Transformer模型。它在ImageNet-1k上进行256x256分辨率的预训练,具有通过局部窗口自注意力机制实现线性计算复杂度的特性。相比前代,Swin Transformer v2加入了残差后范数加余弦注意力以提升训练稳定性、日志距离连续位置偏置以提升低分辨率预训练模型在高分辨率任务中的表现,以及SimMIM自我监督预训练方法以减少对大规模标注图像的依赖。
dino-vits8 - 采用DINO训练的自监督Vision Transformer模型
Github预训练模型开源项目图像分类自监督学习Vision TransformerHuggingfaceDINO
小型Vision Transformer模型使用DINO自监督方法训练,专为ImageNet-1k数据集预训练。模型通过8x8像素的固定大小图像块输入,用于图像表征,无需微调便可用于图像分类任务。ViT模型适合下游任务的特征提取,并可通过线性层进行分类。用户可在Hugging Face上找到适合特定任务的微调版本。
eva02_large_patch14_448.mim_m38m_ft_in22k_in1k - EVA02大型视觉模型在ImageNet达到90.054%分类准确率
EVA02图像分类Huggingface开源项目模型GithubImageNet神经网络深度学习
EVA02_large_patch14_448是一个基于视觉Transformer架构的图像处理模型,通过在Merged-38M数据集预训练和ImageNet数据集微调,在图像分类任务中达到90.054%的准确率。模型整合了均值池化、位置编码等技术,支持图像分类和特征提取应用。
resnet18.a3_in1k - 简化且高效的图像分类模型,支持轻松集成
神经网络图像分类特征提取ImageNet模型Github开源项目ResNetHuggingface
ResNet18的最新变体,在ImageNet-1k数据集上使用A3训练方法进行优化。模型具有ReLU激活函数、7x7卷积与池化、以及1x1卷积下采样设计,增强图像分类精度和特征提取能力,适合影像识别和深度学习项目应用。参数数量为11.7M,GMACs为0.9,适用于中小规模项目,易于集成部署。
efficientnet_b5.sw_in12k_ft_in1k - EfficientNet-加强版:适用于图像分类与特征提取的高效模型
timm图像分类Huggingface特征提取开源项目模型GithubEfficientNetImageNet
EfficientNet模型结合了Swin Transformer的优化策略,经过ImageNet-12k预训练及ImageNet-1k微调,适用于图像识别、特征提取和嵌入生成。该模型使用AdamW优化器、梯度裁剪和余弦退火学习率等技术,提供高效的图像分类解决方案。
resnet50.ram_in1k - ResNet50模型在ImageNet-1k上的应用与特征提取
timmAugMixImageNet-1k模型GithubResNet-B开源项目图像分类Huggingface
ResNet50模型通过ReLU激活函数和7x7单层卷积实现图像分类,下采样优化采用1x1卷积。在训练过程中结合了AugMix、RandAugment与SGD优化策略,并通过余弦学习率和暖启动机制来提升在ImageNet-1k数据集上的表现。该模型由timm库实现,支持多种用途,如图像分类、特征提取和图像嵌入。
mobilenetv4_conv_medium.e500_r256_in1k - MobileNet-V4中档卷积模型:在保持较低参数量的同时提高图像分类效率
timm特征提取MobileNet-V4ImageNet-1k模型Github开源项目图像分类Huggingface
介绍了在ImageNet-1k数据集上训练的MobileNet-V4图像分类模型,其在维持高效分类精度的同时,降低了参数和计算量。模型支持特征提取和图像嵌入等应用场景,并与同类模型进行了广泛比较,适用于移动设备上的高效图像处理。
twins_svt_large.in1k - Twins-SVT模型适用于图像分类的创新Transformer架构
timmTwins-SVTImageNet-1k模型Github开源项目图像分类Vision TransformersHuggingface
Twins-SVT是一个利用空间注意力机制的图像分类模型,在ImageNet-1k上训练,具备99.3M参数及15.1 GMACs。通过timm库调用,能有效用于图像识别与特征嵌入工作。
eva02_base_patch14_448.mim_in22k_ft_in22k_in1k - EVA02视觉Transformer的图像分类与特征提取模型
ImageNetGithub开源项目图像分类EVA02模型微调Huggingface视觉变换器模型
EVA02是一款基于视觉Transformer架构的图像分类和特征提取模型。它结合了平均池化、SwiGLU和旋转位置嵌入技术,在ImageNet-22k数据集上进行预训练并在ImageNet-1k上微调。兼容timm库,以确保在不同设备上的一致性和高效性,广泛适用于多种图像分类和特征提取任务。
tf_efficientnet_b5.ns_jft_in1k - 精准描述EfficientNet的图像分类与特征提取能力
开源项目模型timmImageNetGithubHuggingfaceEfficientNet图像分类Noisy Student
模型tf_efficientnet_b5.ns_jft_in1k,根植于EfficientNet,经过Noisy Student半监督学习技术在Tensorflow上训练后移植至PyTorch,专用于ImageNet-1k和JFT-300m未标记数据集的图像分类,具有优越的准确性和效能。其结构简洁,具备卓越的特征提取和图像嵌入能力,在多种计算机视觉任务中广泛应用。
tf_efficientnetv2_m.in21k_ft_in1k - EfficientNetV2的图片识别与特征提取
Github开源项目特征提取图像分类EfficientNet-v2Huggingface深度学习图像嵌入模型
EfficientNetV2模型在ImageNet-21k数据集上预训练,并在ImageNet-1k上微调,最初使用TensorFlow构建,由Ross Wightman移植至PyTorch。其参数量为54.1M,能够在不同分辨率下实现精确的图像识别,并支持通过timm库执行图像分类、特征提取和嵌入生成等多任务。
vit-base-patch32-384 - Vision Transformer图像分类模型支持大规模数据训练
ImageNetGithub开源项目图像分类计算机视觉Vision TransformerHuggingface深度学习模型
Vision Transformer(ViT)是一款图像分类模型,采用Transformer编码器架构,通过将图像分割为固定大小patch进行处理。模型在包含1400万张图像的ImageNet-21k数据集完成预训练,并在ImageNet-1k数据集上进行384x384分辨率的微调。提供预训练权重,可直接应用于图像分类或迁移学习任务。
convnext_nano.in12k_ft_in1k - 基于ConvNeXt架构的轻量级图像分类模型
ConvNeXtGithub模型ImageNet开源项目图像分类timmHuggingface特征提取
convnext_nano.in12k_ft_in1k是基于ConvNeXt架构开发的轻量级图像分类模型,模型参数量1560万,在ImageNet-12k数据集预训练后在ImageNet-1k微调。支持图像分类、特征提取和嵌入向量生成等功能,适用于计算资源受限环境下的视觉任务。