#图像分类

mobilevit-xx-small - 轻量级移动端视觉转换模型,适用于通用图像分类
图像分类ImageNet-1kMobileViTHuggingfaceGithub开源项目模型Transformer卷积神经网络
MobileViT模型的设计同时保证了轻量和低延迟性能,通过结合MobileNetV2和全局处理变换器块,适合各种图像分类应用。模型无需位置嵌入,已在ImageNet-1k数据集预训练并取得69%的top-1准确率。训练过程中采用简单的数据增强方法,可无须微调即可学到多尺度特征。目前支持PyTorch框架。
convnextv2_huge.fcmae_ft_in22k_in1k_384 - 高级卷积网络用于图像分类与特征提取
图像分类HuggingfaceConvNeXt-V2开源项目模型预训练模型Github特征骨干ImageNet-1k
ConvNeXt-V2是一种先进的卷积网络模型,专为图像分类与特征提取而设计。此模型通过全卷积掩码自编码器进行预训练,并在ImageNet-22k和ImageNet-1k上进行微调。具备660.3M参数和338.0 GMACs的计算成本,专为384x384大小的图像设计,确保高效处理与高精度结果。其在主流图像分类任务中的表现卓越,达到88.668的Top-1准确率和98.738的Top-5准确率,其框架优化适配多种计算场景。
tf_efficientnet_b3.ns_jft_in1k - 结合EfficientNet架构的神经网络图像处理模型
深度学习图像分类Huggingface特征提取开源项目模型GithubEfficientNetImageNet
该模型采用EfficientNet架构,通过Noisy Student半监督学习方法在ImageNet-1k和JFT-300m数据集训练。模型参数量1220万,支持300x300分辨率图像处理,可实现图像分类、特征提取和图像嵌入等功能。模型结合高效的网络架构和半监督学习技术,在图像处理任务中表现出色。
mobilevitv2-1.0-imagenet1k-256 - MobileViTv2中的可分离自注意力实现高效图像分类
图像分类PyTorchMobileViTv2分离自注意力HuggingfaceImageNetGithub开源项目模型
MobileViTv2是一个图像分类模型,通过引入可分离自注意力机制,提升计算效率与性能。该模型在ImageNet-1k数据集上预训练,适用于大规模图像分类任务,并支持PyTorch平台。用户可使用此模型进行未处理图像的分类,或寻找适合特定任务的微调版本,为图像识别应用带来优化。
convnext-large-384 - ConvNeXT模型在图像分类中的创新突破
图像分类HuggingfaceImageNetVision TransformersGithub开源项目模型ResNetConvNeXT
ConvNeXT是一个受Vision Transformers启发的卷积模型,通过在ImageNet-1k上以384x384分辨率训练而成,旨在提高图像分类效果。研究显示,该模型在性能上优于传统模型,并基于ResNet进行了现代化改造。开发者Liu等人在相关论文中介绍了这一模型,该模型可用于分类任务,亦可在Hugging Face平台上进行任务微调。
CLIP-ViT-B-32-DataComp.XL-s13B-b90K - 基于DataComp-1B训练的CLIP图像分类模型
图像分类Huggingface机器学习CLIP人工智能开源项目模型GithubDataComp
CLIP ViT-B/32是一个使用DataComp-1B数据集训练的图像分类模型,在ImageNet-1k测试中达到72.7%零样本分类准确率。模型支持图像分类、图像文本检索等功能,主要面向多模态机器学习研究使用。
CLIP-ViT-B-32-256x256-DataComp-s34B-b86K - 基于DataComp训练的CLIP多模态视觉语言模型
开源项目模型GithubViT-B-32机器学习HuggingfaceCLIPDataComp-1B图像分类
CLIP ViT-B/32是一个在DataComp-1B数据集上训练的视觉语言模型,通过OpenCLIP框架实现。模型在ImageNet-1k分类任务中实现72.7%零样本准确率,支持图像分类、跨模态检索等研究任务。该开源项目为计算机视觉研究提供了重要的实验基础
convnextv2_huge.fcmae_ft_in22k_in1k_512 - ConvNeXt-V2高效的图像分类与特征提取模型
图像分类模型预训练ConvNeXt-V2HuggingfaceImageNetGithub开源项目模型特征提取
ConvNeXt-V2模型在全卷积掩码自动编码器框架下进行预训练,并在ImageNet-22k和ImageNet-1k数据集上微调,提升了图像分类和特征提取的效率。模型拥有660.3M参数,处理512x512图像,适合复杂计算需求。支持图像分类、特征图提取和图像嵌入,确保高准确率和多样化应用,结合timm库简化操作,适用于研究和工业应用。
convnext_atto_ols.a2_in1k - 高效的ConvNeXt模型实现图像分类与特征提取
图像分类HuggingfaceImageNet-1k特征提取开源项目模型Github图像嵌入ConvNeXt
本项目提供一个基于ImageNet-1k数据集优化的ConvNeXt图像分类模型,其低参数量和高效计算性能使其成为图像处理任务(如特征图提取和图像嵌入生成)的理想选择。该模型在timm库中训练,支持快速且准确的分类任务,并适用于多种计算需求。
tinynet_e.in1k - TinyNet模型在ImageNet-1k上的应用与性能分析
timm特征提取ImageNet-1k模型Github开源项目图像分类tinynet_e.in1kHuggingface
TinyNet是一个旨在优化图像分类和特征提取的模型,通过调整分辨率、深度和宽度,在ImageNet-1k上进行训练。模型参数量为2.0M,并具有低计算负荷。提供简便的代码示例以支持图像分类、特征图提取和图像嵌入,可用于多种图像处理场景。同时,通过timm库探索其指标表现,更深入了解其在神经信息处理中的应用。
vit_small_patch32_224.augreg_in21k_ft_in1k - Vision Transformer图像分类模型 预训练于ImageNet-21k并微调于ImageNet-1k
Vision TransformertimmImageNet深度学习模型Github开源项目图像分类Huggingface
这是一个基于Vision Transformer (ViT)架构的图像分类模型,在ImageNet-21k上进行预训练,并在ImageNet-1k上微调。模型包含2290万参数,处理224x224尺寸的图像输入。通过额外的数据增强和正则化技术提升性能,最初在JAX框架中训练,后移植至PyTorch。该模型提供简洁的API,支持图像分类和特征提取两大功能,可广泛应用于多种计算机视觉任务。
regnety_320.seer - RegNetY-32GF模型:自监督学习优化的图像特征提取工具
Github开源项目特征提取图像分类RegNetY自监督学习SwAVHuggingface模型
RegNetY-32GF模型经过SEER自监督学习预训练,具备卓越图像特征提取能力。其增强功能如随机深度和梯度检查点等,有助于优化处理大规模数据集。支持多种配置和预激活瓶颈块,适合多样化深度学习应用。
marqo-fashionCLIP - 基于CLIP的时尚图像检索与分类开源模型
GithubMarqo-FashionCLIP多模态检索开源项目图像分类时尚搜索Huggingface性能评估模型
Marqo-FashionCLIP是一个基于CLIP架构的时尚图像检索和分类模型。模型采用广义对比学习技术,支持处理文本描述、类别、风格、颜色和材质等多维度特征。在Atlas、DeepFashion等6个公开数据集的评测中,该模型在文本到图像检索、类别分类等任务上取得了优异表现。开发者可通过Hugging Face、OpenCLIP或Transformers.js等框架使用此模型。
vit_base_patch16_224.orig_in21k_ft_in1k - 基于ImageNet大规模数据集的Vision Transformer模型
Vision TransformertimmPyTorchImageNet模型Github开源项目图像分类Huggingface
该Vision Transformer模型经过ImageNet-21k数据集预训练并在ImageNet-1k上微调,采用86.6M参数,适用于224x224图像的分类与特征提取。最初由论文作者在JAX上训练,并由Ross Wightman移植到PyTorch环境,可应用于图像分类和嵌入场景。
efficientnetv2_rw_t.ra2_in1k - EfficientNet-v2的模型特点与应用分析
Github模型ImageNet-1k开源项目图像分类EfficientNet-v2timmHuggingface特征提取
EfficientNet-v2是一个专注于图像分类的高效模型,采用RandAugment策略在ImageNet-1k数据集上训练,具有参数少、训练快的特点。通过timm库实现,支持特征图提取和图像嵌入等多种功能。其结构设计为强大的特征骨干提供了基础。
resnet10t.c3_in1k - 使用ResNet-T技术的先进图像分类模型
图像分类Image EmbeddingsHuggingfaceImageNetGithub开源项目模型ResNet-T提取特征图
ResNet-T模型结合ReLU激活和分层结构的3x3卷积和池化,实现高效的图像分类。模型在ImageNet-1k数据集上训练,通过SGD优化和Cosine学习率调度,具备出色的分类和特征提取能力,适用于多种应用场景。
vit_small_patch8_224.dino - 基于自监督DINO的图像特征提取Transformer
图像分类模型比较自监督学习HuggingfaceGithub开源项目模型特征提取Vision Transformer
项目提供了一种自监督DINO方法的Vision Transformer模型,用于图像特征提取。具有21.7M参数和16.8 GMACs运算量,预训练数据为ImageNet-1k。适用于多种视觉任务,支持通过PyTorch和timm库实现,确保高效处理。这项技术在视觉Transformer领域表现出色。
tf_efficientnet_lite0.in1k - 轻量级EfficientNet-Lite模型实现高效图像分类与特征提取
EfficientNet-LiteGithub模型ImageNet-1k开源项目图像分类Huggingface模型对比特征提取
EfficientNet-Lite0是一款专为高效图像分类和特征提取设计的模型,经过ImageNet-1k训练。该模型已被迁移至PyTorch,并利用timm库进行图像嵌入和特征图提取。在4.7M参数和0.4 GMACs的架构下,实现了高效性能与计算资源节约,适合作为多种视觉任务的解决方案。
swin-base-patch4-window12-384 - 高效图像分类的Swin Transformer视觉模型
自注意力机制Swin Transformer视觉转换器图像分类Huggingface层次特征图开源项目模型Github
Swin Transformer是一款视觉Transformer,通过使用层级特征图和移窗技术,进行高效图像分类。模型在ImageNet-1k数据集上以384x384分辨率训练,具备线性计算复杂度,使其适用于图像分类和密集识别任务。模型可用于原始图像分类,或者在模型集中寻找细化版本,适合处理计算密集型任务。
siglip-base-patch16-256-multilingual - 基于Sigmoid损失函数的多语言视觉语言模型
图像分类Huggingface开源项目模型WebLI数据集Github零样本学习多模态模型SigLIP
SigLIP是一个基于CLIP架构的多语言视觉语言模型,通过Sigmoid损失函数优化训练效果。模型在WebLI数据集上以256x256分辨率预训练,实现零样本图像分类和图文检索功能。相比CLIP模型,在批量处理和整体性能上都有提升。模型经过16个TPU-v4芯片训练,支持多语言处理,主要应用于图像分类和跨模态检索任务。
beit_base_patch16_384.in22k_ft_in22k_in1k - 高效的BEiT自监督图像分类与嵌入模型
图像分类自监督学习BEiTHuggingface视觉TransformerImageNetGithub开源项目模型
BEiT图像分类模型在ImageNet-22k上通过DALL-E dVAE自监督掩码图像建模进行训练,并在ImageNet-22k和ImageNet-1k上进行微调。特点包括易于实现图像分类和生成图像嵌入,具有86.7百万参数,支持384x384图像。模型适合通过timm库高效调用,适用于多种计算机视觉应用。
samvit_base_patch16.sa1b - 高效的图像特征提取与分类工具
图像分类图像特征提取samvit_base_patch16.sa1bHuggingfaceGithub开源项目模型预训练Vision Transformer
Segment-Anything Vision Transformer(SAM ViT)模型专注于图像特征提取与分类,不含分割头。使用MAE权重进行初始化,并通过SA-1B数据集的预训练,展示出89.7M的参数量及486.4 GMACs的计算性能,适宜处理1024x1024图像。Python代码示例提供了图像分类与嵌入应用方式,用户可通过timm库使用预训练模型‘samvit_base_patch16.sa1b’以提升图像分析效率。
sdxl-detector - 高效分类现代图像与Wikimedia-SDXL数据优化模型
Github模型AutoTrain开源项目SDXL图像分类HuggingfaceWikimediaAI艺术检测器
SDXL Detector专为精确分类Wikimedia-SDXL图像对而设计,通过微调umm-maybe AI art detector模型,有效提高了对现代扩散模型和非艺术性图像的识别能力。尽管对旧版本生成模型图像的检测能力可能不如原始模型,SDXL Detector适合非商业用途,凭借AutoTrain训练展现出高效性能,如出色的f1得分和精准度。
convnextv2_base.fcmae_ft_in22k_in1k_384 - 高效图像识别与特征开发的开源解决方案
ImageNet图像分类卷积神经网络开源项目模型Huggingface特征提取ConvNeXt-V2Github
ConvNeXt-V2是一款基于全卷积掩码自编码器(FCMAE)预训练的图像分类模型,能够高效处理ImageNet-22k和ImageNet-1k数据集。模型拥有88.7M的参数和45.21 GMACs,适合精准的图像识别和特征开发。兼容timm库,支持图像分类、特征图提取和图像嵌入生成等应用场景。通过简单的Python代码即可调用该模型,提升开发效率。
convnext-tiny-224 - 高效图像分类 ConvNeXT卷积神经网络的新突破
图像分类HuggingfaceVision TransformersImageNetGithub开源项目模型ResNetConvNeXT
ConvNeXT是一款卷积模型,具有优于Vision Transformers的表现。设计灵感源于Swin Transformer,并对ResNet进行了现代化调整,专注于图像分类。ConvNeXT-tiny-224在ImageNet-1k数据集训练后,提供高效的分类能力。模型集线器提供适用不同任务的微调版本。
caformer_b36.sail_in22k_ft_in1k - CAFormer图像分类模型基于MetaFormer设计
timm图像分类Huggingface特征提取开源项目模型GithubImageNetCAFormer
CAFormer基于MetaFormer架构,支持由ImageNet-22k预训练和ImageNet-1k微调,旨在增强图像识别能力。拥有98.8M参数与23.2 GMACs,擅长处理224x224像素图像。通过TIMM库访问,这款图像分类/特征骨干模型能够提升图像理解及特征提取,适用于图像分类、特征提取和图像嵌入等多种视觉任务。
flava-full - FLAVA模型的零样本图像和文本检索能力
模型限制开源项目模型GithubHuggingfaceFLAVA多模态自然语言理解图像分类
FLAVA模型基于70M图像文本对实现多模态统一架构,在计算机视觉和自然语言理解任务中展示了强大性能。该模型不依赖特定模态,与CLIP相似,可执行零样本图像分类与检索,非常适用于AI研究者探索其在多领域预训练中的应用及局限性。
vit-large-patch16-384 - Vision Transformer大模型,提升高分辨率图像分类表现
深度学习图像分类Huggingfacetransformer开源项目模型GithubVision TransformerImageNet
项目提供了预训练于ImageNet-21k并在ImageNet 2012上微调的Vision Transformer(ViT)大模型。ViT通过将图像分为固定大小的补丁并使用Transformer编码器进行解析,提升了分类精度和特征提取能力,支持高分辨率视觉识别任务并兼容PyTorch使用。
convnextv2-atto-1k-224 - ConvNeXt V2 提升卷积网络性能的先进图像分类模型
开源项目模型GithubHuggingfaceConvNeXt V2卷积神经网络FCMAE框架图像分类ImageNet-1K
ConvNeXt V2 是一种创新的图像分类模型,利用 FCMAE 框架在 ImageNet-1K 数据集上进行微调。该模型结合了全卷积掩码自编码器和新型 GRN 层,有效提升了在多项识别基准上的性能。模型能够进行图像分类,预测应用于 ImageNet 1,000 类问题,是计算机视觉任务的高效选择。
rexnet_150.nav_in1k - 高效的图像识别与特征提取
timmReXNet特征提取ImageNet-1k模型Github开源项目图像分类Huggingface
ReXNet是一款在ImageNet-1k数据集上预训练的图像分类模型,具有9.7M参数和0.9 GMACs,专为224x224尺寸图像设计。在timm库中实现模型调用,支持图像分类、特征地图提取及嵌入计算,堪称参数量与准确率之间的理想平衡,适用于深度学习研究和开发。
wide_resnet101_2.tv_in1k - 宽残差网络101_2图像分类与特征提取功能
wide_resnet101_2.tv_in1k特征提取ImageNet-1k模型Github开源项目图像分类ReLU激活Huggingface
Wide-ResNet101_2.tv_in1k是一种经ImageNet-1k数据训练的图像分类模型,采用ReLU激活、7x7卷积以及1x1卷积捷径降采样。该模型在图像分类和特征图提取方面表现优秀,可通过timm库轻松集成,是图像处理和计算机视觉领域的实用工具。
vit - 在Habana Gaudi HPU上高效运行ViT模型的配置指南
Optimum Habana开源项目模型GithubHuggingfaceHugging FaceGaudi处理器混合精度图像分类
了解如何使用Habana Gaudi HPU进行ViT模型高效训练和部署,提供如自定义AdamW和融合梯度剪裁等特定训练参数。支持bf16混合精度训练以提升性能和精度。探索Habana HPU在增强Transformer和Diffuser模型方面的应用。
vit_large_patch14_clip_336.openai_ft_in12k_in1k - ViT图像分类与特征提取模型
图像分类ImageNet-1kHuggingface预训练模型Github开源项目模型WIT-400MVision Transformer
OpenAI的ViT图像分类模型,利用CLIP在WIT-400M上预训练,并在ImageNet数据集上微调,适合多种视觉任务。其高性能参数为研究与开发提供强大支持,通过示例代码,可轻松实现图像分类与嵌入功能。
CLIP-convnext_base_w-laion_aesthetic-s13B-b82K - LAION-5B训练的ConvNeXt-Base CLIP模型
数据集ConvNext开源项目模型Github机器学习HuggingfaceCLIP图像分类
ConvNeXt-Base架构的CLIP模型在LAION-5B子集上完成训练,支持256x256和320x320两种图像分辨率。在ImageNet零样本分类评测中取得70.8%-71.7%的top-1准确率,样本效率超过同规模ViT-B/16模型。该模型主要用于研究领域,可执行零样本图像分类和图文检索等任务。
convnextv2_large.fcmae_ft_in22k_in1k - ConvNeXt-V2图像分类模型结合FCMAE预训练架构
ConvNeXt-V2模型比较ImageNet深度学习模型Github开源项目图像分类Huggingface
ConvNeXt-V2是一个大型图像分类模型,通过FCMAE框架预训练并在ImageNet数据集上微调。模型包含1.98亿参数,Top1准确率达87.26%,可用于图像分类、特征提取和嵌入等计算机视觉任务。其224x224的标准训练分辨率和多功能性使其成为视觉处理的实用选择。
mobilenetv4_conv_small.e2400_r224_in1k - MobileNet-V4图像分类模型简介
Github模型ImageNetMobileNetV4开源项目图像分类timmPyTorchHuggingface
MobileNetV4是一个利用ImageNet-1k数据集训练的图像分类模型,具有3.8M参数和0.2 GMACs的复杂度。该模型由timm库优化,使用了与MobileNet-V4论文一致的超参数。其训练和测试图像尺寸分别为224x224和256x256,适用于移动平台。更多信息可在PyTorch Image Models和相关论文中找到。