#图像分类

mobilevit-xx-small - 轻量级移动端视觉转换模型，适用于通用图像分类

图像分类ImageNet-1kMobileViTHuggingfaceGithub开源项目模型Transformer卷积神经网络

MobileViT模型的设计同时保证了轻量和低延迟性能，通过结合MobileNetV2和全局处理变换器块，适合各种图像分类应用。模型无需位置嵌入，已在ImageNet-1k数据集预训练并取得69%的top-1准确率。训练过程中采用简单的数据增强方法，可无须微调即可学到多尺度特征。目前支持PyTorch框架。

convnextv2_huge.fcmae_ft_in22k_in1k_384 - 高级卷积网络用于图像分类与特征提取

图像分类HuggingfaceConvNeXt-V2开源项目模型预训练模型Github特征骨干ImageNet-1k

ConvNeXt-V2是一种先进的卷积网络模型，专为图像分类与特征提取而设计。此模型通过全卷积掩码自编码器进行预训练，并在ImageNet-22k和ImageNet-1k上进行微调。具备660.3M参数和338.0 GMACs的计算成本，专为384x384大小的图像设计，确保高效处理与高精度结果。其在主流图像分类任务中的表现卓越，达到88.668的Top-1准确率和98.738的Top-5准确率，其框架优化适配多种计算场景。

tf_efficientnet_b3.ns_jft_in1k - 结合EfficientNet架构的神经网络图像处理模型

深度学习图像分类Huggingface特征提取开源项目模型GithubEfficientNetImageNet

该模型采用EfficientNet架构，通过Noisy Student半监督学习方法在ImageNet-1k和JFT-300m数据集训练。模型参数量1220万，支持300x300分辨率图像处理，可实现图像分类、特征提取和图像嵌入等功能。模型结合高效的网络架构和半监督学习技术，在图像处理任务中表现出色。

mobilevitv2-1.0-imagenet1k-256 - MobileViTv2中的可分离自注意力实现高效图像分类

图像分类PyTorchMobileViTv2分离自注意力HuggingfaceImageNetGithub开源项目模型

MobileViTv2是一个图像分类模型，通过引入可分离自注意力机制，提升计算效率与性能。该模型在ImageNet-1k数据集上预训练，适用于大规模图像分类任务，并支持PyTorch平台。用户可使用此模型进行未处理图像的分类，或寻找适合特定任务的微调版本，为图像识别应用带来优化。

convnext-large-384 - ConvNeXT模型在图像分类中的创新突破

图像分类HuggingfaceImageNetVision TransformersGithub开源项目模型ResNetConvNeXT

ConvNeXT是一个受Vision Transformers启发的卷积模型，通过在ImageNet-1k上以384x384分辨率训练而成，旨在提高图像分类效果。研究显示，该模型在性能上优于传统模型，并基于ResNet进行了现代化改造。开发者Liu等人在相关论文中介绍了这一模型，该模型可用于分类任务，亦可在Hugging Face平台上进行任务微调。

CLIP-ViT-B-32-DataComp.XL-s13B-b90K - 基于DataComp-1B训练的CLIP图像分类模型

图像分类Huggingface机器学习CLIP人工智能开源项目模型GithubDataComp

CLIP ViT-B/32是一个使用DataComp-1B数据集训练的图像分类模型，在ImageNet-1k测试中达到72.7%零样本分类准确率。模型支持图像分类、图像文本检索等功能，主要面向多模态机器学习研究使用。

CLIP-ViT-B-32-256x256-DataComp-s34B-b86K - 基于DataComp训练的CLIP多模态视觉语言模型

开源项目模型GithubViT-B-32机器学习HuggingfaceCLIPDataComp-1B图像分类

CLIP ViT-B/32是一个在DataComp-1B数据集上训练的视觉语言模型，通过OpenCLIP框架实现。模型在ImageNet-1k分类任务中实现72.7%零样本准确率，支持图像分类、跨模态检索等研究任务。该开源项目为计算机视觉研究提供了重要的实验基础

convnextv2_huge.fcmae_ft_in22k_in1k_512 - ConvNeXt-V2高效的图像分类与特征提取模型

图像分类模型预训练ConvNeXt-V2HuggingfaceImageNetGithub开源项目模型特征提取

ConvNeXt-V2模型在全卷积掩码自动编码器框架下进行预训练，并在ImageNet-22k和ImageNet-1k数据集上微调，提升了图像分类和特征提取的效率。模型拥有660.3M参数，处理512x512图像，适合复杂计算需求。支持图像分类、特征图提取和图像嵌入，确保高准确率和多样化应用，结合timm库简化操作，适用于研究和工业应用。

convnext_atto_ols.a2_in1k - 高效的ConvNeXt模型实现图像分类与特征提取

图像分类HuggingfaceImageNet-1k特征提取开源项目模型Github图像嵌入ConvNeXt

本项目提供一个基于ImageNet-1k数据集优化的ConvNeXt图像分类模型，其低参数量和高效计算性能使其成为图像处理任务（如特征图提取和图像嵌入生成）的理想选择。该模型在timm库中训练，支持快速且准确的分类任务，并适用于多种计算需求。

tinynet_e.in1k - TinyNet模型在ImageNet-1k上的应用与性能分析

timm特征提取ImageNet-1k模型Github开源项目图像分类tinynet_e.in1kHuggingface

TinyNet是一个旨在优化图像分类和特征提取的模型，通过调整分辨率、深度和宽度，在ImageNet-1k上进行训练。模型参数量为2.0M，并具有低计算负荷。提供简便的代码示例以支持图像分类、特征图提取和图像嵌入，可用于多种图像处理场景。同时，通过timm库探索其指标表现，更深入了解其在神经信息处理中的应用。

vit_small_patch32_224.augreg_in21k_ft_in1k - Vision Transformer图像分类模型预训练于ImageNet-21k并微调于ImageNet-1k

Vision TransformertimmImageNet深度学习模型Github开源项目图像分类Huggingface

这是一个基于Vision Transformer (ViT)架构的图像分类模型，在ImageNet-21k上进行预训练，并在ImageNet-1k上微调。模型包含2290万参数，处理224x224尺寸的图像输入。通过额外的数据增强和正则化技术提升性能，最初在JAX框架中训练，后移植至PyTorch。该模型提供简洁的API，支持图像分类和特征提取两大功能，可广泛应用于多种计算机视觉任务。

regnety_320.seer - RegNetY-32GF模型：自监督学习优化的图像特征提取工具

Github开源项目特征提取图像分类RegNetY自监督学习SwAVHuggingface模型

RegNetY-32GF模型经过SEER自监督学习预训练，具备卓越图像特征提取能力。其增强功能如随机深度和梯度检查点等，有助于优化处理大规模数据集。支持多种配置和预激活瓶颈块，适合多样化深度学习应用。

marqo-fashionCLIP - 基于CLIP的时尚图像检索与分类开源模型

GithubMarqo-FashionCLIP多模态检索开源项目图像分类时尚搜索Huggingface性能评估模型

Marqo-FashionCLIP是一个基于CLIP架构的时尚图像检索和分类模型。模型采用广义对比学习技术，支持处理文本描述、类别、风格、颜色和材质等多维度特征。在Atlas、DeepFashion等6个公开数据集的评测中，该模型在文本到图像检索、类别分类等任务上取得了优异表现。开发者可通过Hugging Face、OpenCLIP或Transformers.js等框架使用此模型。

vit_base_patch16_224.orig_in21k_ft_in1k - 基于ImageNet大规模数据集的Vision Transformer模型

Vision TransformertimmPyTorchImageNet模型Github开源项目图像分类Huggingface

该Vision Transformer模型经过ImageNet-21k数据集预训练并在ImageNet-1k上微调，采用86.6M参数，适用于224x224图像的分类与特征提取。最初由论文作者在JAX上训练，并由Ross Wightman移植到PyTorch环境，可应用于图像分类和嵌入场景。

efficientnetv2_rw_t.ra2_in1k - EfficientNet-v2的模型特点与应用分析

Github模型ImageNet-1k开源项目图像分类EfficientNet-v2timmHuggingface特征提取

EfficientNet-v2是一个专注于图像分类的高效模型，采用RandAugment策略在ImageNet-1k数据集上训练，具有参数少、训练快的特点。通过timm库实现，支持特征图提取和图像嵌入等多种功能。其结构设计为强大的特征骨干提供了基础。

resnet10t.c3_in1k - 使用ResNet-T技术的先进图像分类模型

图像分类Image EmbeddingsHuggingfaceImageNetGithub开源项目模型ResNet-T提取特征图

ResNet-T模型结合ReLU激活和分层结构的3x3卷积和池化，实现高效的图像分类。模型在ImageNet-1k数据集上训练，通过SGD优化和Cosine学习率调度，具备出色的分类和特征提取能力，适用于多种应用场景。

vit_small_patch8_224.dino - 基于自监督DINO的图像特征提取Transformer

图像分类模型比较自监督学习HuggingfaceGithub开源项目模型特征提取Vision Transformer

项目提供了一种自监督DINO方法的Vision Transformer模型，用于图像特征提取。具有21.7M参数和16.8 GMACs运算量，预训练数据为ImageNet-1k。适用于多种视觉任务，支持通过PyTorch和timm库实现，确保高效处理。这项技术在视觉Transformer领域表现出色。

tf_efficientnet_lite0.in1k - 轻量级EfficientNet-Lite模型实现高效图像分类与特征提取

EfficientNet-LiteGithub模型ImageNet-1k开源项目图像分类Huggingface模型对比特征提取

EfficientNet-Lite0是一款专为高效图像分类和特征提取设计的模型，经过ImageNet-1k训练。该模型已被迁移至PyTorch，并利用timm库进行图像嵌入和特征图提取。在4.7M参数和0.4 GMACs的架构下，实现了高效性能与计算资源节约，适合作为多种视觉任务的解决方案。

swin-base-patch4-window12-384 - 高效图像分类的Swin Transformer视觉模型

自注意力机制Swin Transformer视觉转换器图像分类Huggingface层次特征图开源项目模型Github

Swin Transformer是一款视觉Transformer，通过使用层级特征图和移窗技术，进行高效图像分类。模型在ImageNet-1k数据集上以384x384分辨率训练，具备线性计算复杂度，使其适用于图像分类和密集识别任务。模型可用于原始图像分类，或者在模型集中寻找细化版本，适合处理计算密集型任务。

siglip-base-patch16-256-multilingual - 基于Sigmoid损失函数的多语言视觉语言模型

图像分类Huggingface开源项目模型WebLI数据集Github零样本学习多模态模型SigLIP

SigLIP是一个基于CLIP架构的多语言视觉语言模型，通过Sigmoid损失函数优化训练效果。模型在WebLI数据集上以256x256分辨率预训练，实现零样本图像分类和图文检索功能。相比CLIP模型，在批量处理和整体性能上都有提升。模型经过16个TPU-v4芯片训练，支持多语言处理，主要应用于图像分类和跨模态检索任务。

beit_base_patch16_384.in22k_ft_in22k_in1k - 高效的BEiT自监督图像分类与嵌入模型

图像分类自监督学习BEiTHuggingface视觉TransformerImageNetGithub开源项目模型

BEiT图像分类模型在ImageNet-22k上通过DALL-E dVAE自监督掩码图像建模进行训练，并在ImageNet-22k和ImageNet-1k上进行微调。特点包括易于实现图像分类和生成图像嵌入，具有86.7百万参数，支持384x384图像。模型适合通过timm库高效调用，适用于多种计算机视觉应用。

samvit_base_patch16.sa1b - 高效的图像特征提取与分类工具

图像分类图像特征提取samvit_base_patch16.sa1bHuggingfaceGithub开源项目模型预训练Vision Transformer

Segment-Anything Vision Transformer（SAM ViT）模型专注于图像特征提取与分类，不含分割头。使用MAE权重进行初始化，并通过SA-1B数据集的预训练，展示出89.7M的参数量及486.4 GMACs的计算性能，适宜处理1024x1024图像。Python代码示例提供了图像分类与嵌入应用方式，用户可通过timm库使用预训练模型‘samvit_base_patch16.sa1b’以提升图像分析效率。

sdxl-detector - 高效分类现代图像与Wikimedia-SDXL数据优化模型

Github模型AutoTrain开源项目SDXL图像分类HuggingfaceWikimediaAI艺术检测器

SDXL Detector专为精确分类Wikimedia-SDXL图像对而设计，通过微调umm-maybe AI art detector模型，有效提高了对现代扩散模型和非艺术性图像的识别能力。尽管对旧版本生成模型图像的检测能力可能不如原始模型，SDXL Detector适合非商业用途，凭借AutoTrain训练展现出高效性能，如出色的f1得分和精准度。

convnextv2_base.fcmae_ft_in22k_in1k_384 - 高效图像识别与特征开发的开源解决方案

ImageNet图像分类卷积神经网络开源项目模型Huggingface特征提取ConvNeXt-V2Github

ConvNeXt-V2是一款基于全卷积掩码自编码器（FCMAE）预训练的图像分类模型，能够高效处理ImageNet-22k和ImageNet-1k数据集。模型拥有88.7M的参数和45.21 GMACs，适合精准的图像识别和特征开发。兼容timm库，支持图像分类、特征图提取和图像嵌入生成等应用场景。通过简单的Python代码即可调用该模型，提升开发效率。

convnext-tiny-224 - 高效图像分类 ConvNeXT卷积神经网络的新突破

图像分类HuggingfaceVision TransformersImageNetGithub开源项目模型ResNetConvNeXT

ConvNeXT是一款卷积模型，具有优于Vision Transformers的表现。设计灵感源于Swin Transformer，并对ResNet进行了现代化调整，专注于图像分类。ConvNeXT-tiny-224在ImageNet-1k数据集训练后，提供高效的分类能力。模型集线器提供适用不同任务的微调版本。

caformer_b36.sail_in22k_ft_in1k - CAFormer图像分类模型基于MetaFormer设计

timm图像分类Huggingface特征提取开源项目模型GithubImageNetCAFormer

CAFormer基于MetaFormer架构，支持由ImageNet-22k预训练和ImageNet-1k微调，旨在增强图像识别能力。拥有98.8M参数与23.2 GMACs，擅长处理224x224像素图像。通过TIMM库访问，这款图像分类/特征骨干模型能够提升图像理解及特征提取，适用于图像分类、特征提取和图像嵌入等多种视觉任务。

flava-full - FLAVA模型的零样本图像和文本检索能力

模型限制开源项目模型GithubHuggingfaceFLAVA多模态自然语言理解图像分类

FLAVA模型基于70M图像文本对实现多模态统一架构，在计算机视觉和自然语言理解任务中展示了强大性能。该模型不依赖特定模态，与CLIP相似，可执行零样本图像分类与检索，非常适用于AI研究者探索其在多领域预训练中的应用及局限性。

vit-large-patch16-384 - Vision Transformer大模型，提升高分辨率图像分类表现

深度学习图像分类Huggingfacetransformer开源项目模型GithubVision TransformerImageNet

项目提供了预训练于ImageNet-21k并在ImageNet 2012上微调的Vision Transformer（ViT）大模型。ViT通过将图像分为固定大小的补丁并使用Transformer编码器进行解析，提升了分类精度和特征提取能力，支持高分辨率视觉识别任务并兼容PyTorch使用。

convnextv2-atto-1k-224 - ConvNeXt V2 提升卷积网络性能的先进图像分类模型

开源项目模型GithubHuggingfaceConvNeXt V2卷积神经网络FCMAE框架图像分类ImageNet-1K

ConvNeXt V2 是一种创新的图像分类模型，利用 FCMAE 框架在 ImageNet-1K 数据集上进行微调。该模型结合了全卷积掩码自编码器和新型 GRN 层，有效提升了在多项识别基准上的性能。模型能够进行图像分类，预测应用于 ImageNet 1,000 类问题，是计算机视觉任务的高效选择。

rexnet_150.nav_in1k - 高效的图像识别与特征提取

timmReXNet特征提取ImageNet-1k模型Github开源项目图像分类Huggingface

ReXNet是一款在ImageNet-1k数据集上预训练的图像分类模型，具有9.7M参数和0.9 GMACs，专为224x224尺寸图像设计。在timm库中实现模型调用，支持图像分类、特征地图提取及嵌入计算，堪称参数量与准确率之间的理想平衡，适用于深度学习研究和开发。

wide_resnet101_2.tv_in1k - 宽残差网络101_2图像分类与特征提取功能

wide_resnet101_2.tv_in1k特征提取ImageNet-1k模型Github开源项目图像分类ReLU激活Huggingface

Wide-ResNet101_2.tv_in1k是一种经ImageNet-1k数据训练的图像分类模型，采用ReLU激活、7x7卷积以及1x1卷积捷径降采样。该模型在图像分类和特征图提取方面表现优秀，可通过timm库轻松集成，是图像处理和计算机视觉领域的实用工具。

vit - 在Habana Gaudi HPU上高效运行ViT模型的配置指南

Optimum Habana开源项目模型GithubHuggingfaceHugging FaceGaudi处理器混合精度图像分类

了解如何使用Habana Gaudi HPU进行ViT模型高效训练和部署，提供如自定义AdamW和融合梯度剪裁等特定训练参数。支持bf16混合精度训练以提升性能和精度。探索Habana HPU在增强Transformer和Diffuser模型方面的应用。

vit_large_patch14_clip_336.openai_ft_in12k_in1k - ViT图像分类与特征提取模型

图像分类ImageNet-1kHuggingface预训练模型Github开源项目模型WIT-400MVision Transformer

OpenAI的ViT图像分类模型，利用CLIP在WIT-400M上预训练，并在ImageNet数据集上微调，适合多种视觉任务。其高性能参数为研究与开发提供强大支持，通过示例代码，可轻松实现图像分类与嵌入功能。

CLIP-convnext_base_w-laion_aesthetic-s13B-b82K - LAION-5B训练的ConvNeXt-Base CLIP模型

数据集ConvNext开源项目模型Github机器学习HuggingfaceCLIP图像分类

ConvNeXt-Base架构的CLIP模型在LAION-5B子集上完成训练，支持256x256和320x320两种图像分辨率。在ImageNet零样本分类评测中取得70.8%-71.7%的top-1准确率，样本效率超过同规模ViT-B/16模型。该模型主要用于研究领域，可执行零样本图像分类和图文检索等任务。

convnextv2_large.fcmae_ft_in22k_in1k - ConvNeXt-V2图像分类模型结合FCMAE预训练架构

ConvNeXt-V2模型比较ImageNet深度学习模型Github开源项目图像分类Huggingface

ConvNeXt-V2是一个大型图像分类模型，通过FCMAE框架预训练并在ImageNet数据集上微调。模型包含1.98亿参数，Top1准确率达87.26%，可用于图像分类、特征提取和嵌入等计算机视觉任务。其224x224的标准训练分辨率和多功能性使其成为视觉处理的实用选择。

mobilenetv4_conv_small.e2400_r224_in1k - MobileNet-V4图像分类模型简介

Github模型ImageNetMobileNetV4开源项目图像分类timmPyTorchHuggingface

MobileNetV4是一个利用ImageNet-1k数据集训练的图像分类模型，具有3.8M参数和0.2 GMACs的复杂度。该模型由timm库优化，使用了与MobileNet-V4论文一致的超参数。其训练和测试图像尺寸分别为224x224和256x256，适用于移动平台。更多信息可在PyTorch Image Models和相关论文中找到。

Turi Create: 简化机器学习模型开发的强大工具

2024年08月30日

飞桨产业级模型库：推动AI技术在各行业的落地应用

2024年08月30日

GluonCV: 先进的计算机视觉深度学习工具包

2024年08月30日

飞镖运动的魅力:从历史到现代竞技的全面解析

2024年08月30日

深度学习在卫星图像分析中的应用技术

2024年08月30日

ONNX Model Zoo: 开源预训练模型的宝库

2024年08月30日

OpenAI Vision API 实验集锦：探索计算机视觉的无限可能

2024年08月30日

DeepDetect:开源深度学习API和服务器

2024年09月04日

深度学习在图像处理中的应用:从分类到目标检测

2024年08月30日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com