#图像分类
maxvit_base_tf_512.in21k_ft_in1k - MaxViT图像分类模型支持多尺寸特征提取和深度学习训练
GithubMaxViT模型ImageNet开源项目图像分类深度学习Huggingface人工智能
MaxViT是谷歌研究团队开发的图像分类模型,通过ImageNet-21k预训练和ImageNet-1k微调实现。模型集成多轴注意力机制,总参数量119.9M,支持512x512分辨率输入。除图像分类外,还可输出多尺度特征图和嵌入向量,便于迁移至其他视觉任务。模型在ImageNet-1k测试中取得88.20%的分类准确率。
efficientnetv2_rw_s.ra2_in1k - EfficientNetV2架构的轻量级图像分类模型
ImageNetGithub开源项目图像分类机器学习模型EfficientNetV2Huggingface深度学习模型
基于EfficientNetV2架构的图像分类模型,通过timm框架实现,使用RandAugment数据增强和RMSProp优化器在ImageNet-1k数据集训练。模型参数量23.9M,计算量4.9 GMACs,训练分辨率288x288,测试分辨率384x384。支持图像分类、特征图提取和图像嵌入等功能。
repvit_m1.dist_in1k - ImageNet-1k高效图像分类与特征提取开源项目
图像分类Github开源项目timmRepViT模型Huggingface特征提取ImageNet-1k
repvit_m1.dist_in1k是RepViT家族中的高效图像分类模型,专为ImageNet-1k数据集优化,应用蒸馏技术增强性能。模型参数为5.5M,0.8 GMACs,支持224x224图像尺寸。设计灵感源于对移动CNN的创新探索,结合ViT视角。详情请参考相关arXiv文献。该模型能够执行图像分类、特征提取和图像嵌入等任务,适合的研究和工程应用。
vit_large_patch14_dinov2.lvd142m - 基于DINOv2的大规模Vision Transformer视觉特征提取模型
timmDINOv2特征提取模型Github开源项目图像分类ViTHuggingface
这是一个基于Vision Transformer架构的图像特征提取模型,采用DINOv2自监督学习方法在LVD-142M数据集上预训练。模型包含3.044亿参数,支持518x518像素输入,适用于图像分类和特征提取任务。该模型提供了完整的加载、预处理和推理示例代码,可应用于需要高质量视觉特征表示的各种计算机视觉场景。
siglip-base-patch16-512 - 采用Sigmoid损失函数的开源计算机视觉模型
Github模型开源项目图像分类SigLIP深度学习Huggingface计算机视觉图文匹配
SigLIP在CLIP架构基础上改进了损失函数设计,使用Sigmoid损失函数处理图像-文本对训练。该模型在WebLI数据集上预训练,支持512x512分辨率的图像输入,主要应用于零样本图像分类和图文检索。相比CLIP,新的损失函数无需全局相似度归一化,使模型在不同批量规模下都能保持稳定表现。
resnet18.fb_swsl_ig1b_ft_in1k - 基于ResNet-B的ReLU激活图像分类模型
Githubtimm库模型ImageNet-1k开源项目ResNet-B半弱监督学习图像分类Huggingface
本项目展示ResNet-B模型,用于图像分类,特征包括ReLU激活、7x7卷积池化和1x1卷积下采样。模型在Instagram-1B数据集上以半监督学习预训练,并在ImageNet-1k数据集上微调,适用于特征提取和图像嵌入。
vision-perceiver-conv - Perceiver IO模型:灵活应用于图像分类的优化架构
自注意力机制图像分类Huggingface开源项目模型GithubPerceiver IO模型预训练ImageNet
Perceiver IO是一个适用于多种模态的transformer编码器模型,通过自注意力机制在固定的计算资源下实现更高效的处理。该模型在ImageNet上进行了预训练,能够通过像素级处理进行准确的图像分类。模型结合了卷积和maxpool预处理,可以生成多尺寸和多语义的输出结果,并在ImageNet-1k中实现了82.1的顶级精度。这一模型不仅可用于高效的标准图像分类,还能通过替换分类解码器实现灵活的应用扩展,适用于多种任务的特征提取。
vit_small_patch14_reg4_dinov2.lvd142m - 基于自监督学习的视觉Transformer用于图像特征提取和分类
Github模型开源项目图像分类自监督学习深度学习Vision TransformerHuggingface图像特征
该Vision Transformer (ViT) 图像特征模型通过自监督学习进行预训练,基于LVD-142M数据集并采用DINOv2方法。模型专为图像分类和特征提取设计,包含22.1M参数和29.6 GMAC的运算能力。其注册方法增强了处理518x518像素图像的效果,DINOv2技术有助于无监督视觉特征学习。此模型在图像嵌入应用中表现优异,并支持多种视觉分析与研究。用户可使用timm库简单调用和部署模型,适合多种机器学习场景。
regnetz_c16.ra3_in1k - 采用灵活配置的RegNetZ模型实现高效图像分类
BYOBNet开源项目模型timmGithubHuggingfaceRegNetZImageNet-1k图像分类
RegNetZ模型在ImageNet-1k上训练后,展现出色的图像分类性能。该模型基于timm库实现,通过BYOBNet灵活配置支持,包括block/stage布局、激活层、归一化层及自注意层等自定义选项。提供多种应用,如图像分类、特征提取及嵌入生成,设计适合处理不同组宽及层配置需求,尤其适用于高精度及灵活性任务。
convnext_atto.d2_in1k - 轻量级ConvNeXt模型,优化图像分类和特征提取
Ross Wightman特征提取开源项目模型GithubHuggingfaceConvNeXtImageNet-1k图像分类
ConvNeXt图像分类模型,经过Ross Wightman在timm库中使用ImageNet-1k数据集训练。其参数为3.7M,计算量为0.6 GMACs,适合高效图像嵌入与特征提取,计算复杂度低但准确度高,适合多种图像分析任务。
inception_next_tiny.sail_in1k - InceptionNeXt架构的轻量级图像分类模型
特征提取开源项目模型timmGithubHuggingfaceImageNet-1kInceptionNeXt图像分类
inception_next_tiny.sail_in1k是基于InceptionNeXt架构的图像分类模型,在ImageNet-1k数据集上训练。该模型结合Inception和ConvNeXt的特点,提供图像分类、特征图提取和图像嵌入功能。模型参数为28.1M,GMACs为4.2,适用于224x224大小的图像输入。它通过timm库提供简洁的API,支持预训练权重,可轻松应用于多种计算机视觉任务。
mobilevit-xx-small - 轻量级移动端视觉转换模型,适用于通用图像分类
图像分类ImageNet-1kMobileViTHuggingfaceGithub开源项目模型Transformer卷积神经网络
MobileViT模型的设计同时保证了轻量和低延迟性能,通过结合MobileNetV2和全局处理变换器块,适合各种图像分类应用。模型无需位置嵌入,已在ImageNet-1k数据集预训练并取得69%的top-1准确率。训练过程中采用简单的数据增强方法,可无须微调即可学到多尺度特征。目前支持PyTorch框架。
convnextv2_huge.fcmae_ft_in22k_in1k_384 - 高级卷积网络用于图像分类与特征提取
图像分类HuggingfaceConvNeXt-V2开源项目模型预训练模型Github特征骨干ImageNet-1k
ConvNeXt-V2是一种先进的卷积网络模型,专为图像分类与特征提取而设计。此模型通过全卷积掩码自编码器进行预训练,并在ImageNet-22k和ImageNet-1k上进行微调。具备660.3M参数和338.0 GMACs的计算成本,专为384x384大小的图像设计,确保高效处理与高精度结果。其在主流图像分类任务中的表现卓越,达到88.668的Top-1准确率和98.738的Top-5准确率,其框架优化适配多种计算场景。
tf_efficientnet_b3.ns_jft_in1k - 结合EfficientNet架构的神经网络图像处理模型
深度学习图像分类Huggingface特征提取开源项目模型GithubEfficientNetImageNet
该模型采用EfficientNet架构,通过Noisy Student半监督学习方法在ImageNet-1k和JFT-300m数据集训练。模型参数量1220万,支持300x300分辨率图像处理,可实现图像分类、特征提取和图像嵌入等功能。模型结合高效的网络架构和半监督学习技术,在图像处理任务中表现出色。
mobilevitv2-1.0-imagenet1k-256 - MobileViTv2中的可分离自注意力实现高效图像分类
图像分类PyTorchMobileViTv2分离自注意力HuggingfaceImageNetGithub开源项目模型
MobileViTv2是一个图像分类模型,通过引入可分离自注意力机制,提升计算效率与性能。该模型在ImageNet-1k数据集上预训练,适用于大规模图像分类任务,并支持PyTorch平台。用户可使用此模型进行未处理图像的分类,或寻找适合特定任务的微调版本,为图像识别应用带来优化。
convnext-large-384 - ConvNeXT模型在图像分类中的创新突破
图像分类HuggingfaceImageNetVision TransformersGithub开源项目模型ResNetConvNeXT
ConvNeXT是一个受Vision Transformers启发的卷积模型,通过在ImageNet-1k上以384x384分辨率训练而成,旨在提高图像分类效果。研究显示,该模型在性能上优于传统模型,并基于ResNet进行了现代化改造。开发者Liu等人在相关论文中介绍了这一模型,该模型可用于分类任务,亦可在Hugging Face平台上进行任务微调。
CLIP-ViT-B-32-DataComp.XL-s13B-b90K - 基于DataComp-1B训练的CLIP图像分类模型
图像分类Huggingface机器学习CLIP人工智能开源项目模型GithubDataComp
CLIP ViT-B/32是一个使用DataComp-1B数据集训练的图像分类模型,在ImageNet-1k测试中达到72.7%零样本分类准确率。模型支持图像分类、图像文本检索等功能,主要面向多模态机器学习研究使用。
CLIP-ViT-B-32-256x256-DataComp-s34B-b86K - 基于DataComp训练的CLIP多模态视觉语言模型
开源项目模型GithubViT-B-32机器学习HuggingfaceCLIPDataComp-1B图像分类
CLIP ViT-B/32是一个在DataComp-1B数据集上训练的视觉语言模型,通过OpenCLIP框架实现。模型在ImageNet-1k分类任务中实现72.7%零样本准确率,支持图像分类、跨模态检索等研究任务。该开源项目为计算机视觉研究提供了重要的实验基础
convnextv2_huge.fcmae_ft_in22k_in1k_512 - ConvNeXt-V2高效的图像分类与特征提取模型
图像分类模型预训练ConvNeXt-V2HuggingfaceImageNetGithub开源项目模型特征提取
ConvNeXt-V2模型在全卷积掩码自动编码器框架下进行预训练,并在ImageNet-22k和ImageNet-1k数据集上微调,提升了图像分类和特征提取的效率。模型拥有660.3M参数,处理512x512图像,适合复杂计算需求。支持图像分类、特征图提取和图像嵌入,确保高准确率和多样化应用,结合timm库简化操作,适用于研究和工业应用。
convnext_atto_ols.a2_in1k - 高效的ConvNeXt模型实现图像分类与特征提取
图像分类HuggingfaceImageNet-1k特征提取开源项目模型Github图像嵌入ConvNeXt
本项目提供一个基于ImageNet-1k数据集优化的ConvNeXt图像分类模型,其低参数量和高效计算性能使其成为图像处理任务(如特征图提取和图像嵌入生成)的理想选择。该模型在timm库中训练,支持快速且准确的分类任务,并适用于多种计算需求。
tinynet_e.in1k - TinyNet模型在ImageNet-1k上的应用与性能分析
timm特征提取ImageNet-1k模型Github开源项目图像分类tinynet_e.in1kHuggingface
TinyNet是一个旨在优化图像分类和特征提取的模型,通过调整分辨率、深度和宽度,在ImageNet-1k上进行训练。模型参数量为2.0M,并具有低计算负荷。提供简便的代码示例以支持图像分类、特征图提取和图像嵌入,可用于多种图像处理场景。同时,通过timm库探索其指标表现,更深入了解其在神经信息处理中的应用。
vit_small_patch32_224.augreg_in21k_ft_in1k - Vision Transformer图像分类模型 预训练于ImageNet-21k并微调于ImageNet-1k
Vision TransformertimmImageNet深度学习模型Github开源项目图像分类Huggingface
这是一个基于Vision Transformer (ViT)架构的图像分类模型,在ImageNet-21k上进行预训练,并在ImageNet-1k上微调。模型包含2290万参数,处理224x224尺寸的图像输入。通过额外的数据增强和正则化技术提升性能,最初在JAX框架中训练,后移植至PyTorch。该模型提供简洁的API,支持图像分类和特征提取两大功能,可广泛应用于多种计算机视觉任务。
regnety_320.seer - RegNetY-32GF模型:自监督学习优化的图像特征提取工具
Github开源项目特征提取图像分类RegNetY自监督学习SwAVHuggingface模型
RegNetY-32GF模型经过SEER自监督学习预训练,具备卓越图像特征提取能力。其增强功能如随机深度和梯度检查点等,有助于优化处理大规模数据集。支持多种配置和预激活瓶颈块,适合多样化深度学习应用。
marqo-fashionCLIP - 基于CLIP的时尚图像检索与分类开源模型
GithubMarqo-FashionCLIP多模态检索开源项目图像分类时尚搜索Huggingface性能评估模型
Marqo-FashionCLIP是一个基于CLIP架构的时尚图像检索和分类模型。模型采用广义对比学习技术,支持处理文本描述、类别、风格、颜色和材质等多维度特征。在Atlas、DeepFashion等6个公开数据集的评测中,该模型在文本到图像检索、类别分类等任务上取得了优异表现。开发者可通过Hugging Face、OpenCLIP或Transformers.js等框架使用此模型。
vit_base_patch16_224.orig_in21k_ft_in1k - 基于ImageNet大规模数据集的Vision Transformer模型
Vision TransformertimmPyTorchImageNet模型Github开源项目图像分类Huggingface
该Vision Transformer模型经过ImageNet-21k数据集预训练并在ImageNet-1k上微调,采用86.6M参数,适用于224x224图像的分类与特征提取。最初由论文作者在JAX上训练,并由Ross Wightman移植到PyTorch环境,可应用于图像分类和嵌入场景。
efficientnetv2_rw_t.ra2_in1k - EfficientNet-v2的模型特点与应用分析
Github模型ImageNet-1k开源项目图像分类EfficientNet-v2timmHuggingface特征提取
EfficientNet-v2是一个专注于图像分类的高效模型,采用RandAugment策略在ImageNet-1k数据集上训练,具有参数少、训练快的特点。通过timm库实现,支持特征图提取和图像嵌入等多种功能。其结构设计为强大的特征骨干提供了基础。
resnet10t.c3_in1k - 使用ResNet-T技术的先进图像分类模型
图像分类Image EmbeddingsHuggingfaceImageNetGithub开源项目模型ResNet-T提取特征图
ResNet-T模型结合ReLU激活和分层结构的3x3卷积和池化,实现高效的图像分类。模型在ImageNet-1k数据集上训练,通过SGD优化和Cosine学习率调度,具备出色的分类和特征提取能力,适用于多种应用场景。
vit_small_patch8_224.dino - 基于自监督DINO的图像特征提取Transformer
图像分类模型比较自监督学习HuggingfaceGithub开源项目模型特征提取Vision Transformer
项目提供了一种自监督DINO方法的Vision Transformer模型,用于图像特征提取。具有21.7M参数和16.8 GMACs运算量,预训练数据为ImageNet-1k。适用于多种视觉任务,支持通过PyTorch和timm库实现,确保高效处理。这项技术在视觉Transformer领域表现出色。
tf_efficientnet_lite0.in1k - 轻量级EfficientNet-Lite模型实现高效图像分类与特征提取
EfficientNet-LiteGithub模型ImageNet-1k开源项目图像分类Huggingface模型对比特征提取
EfficientNet-Lite0是一款专为高效图像分类和特征提取设计的模型,经过ImageNet-1k训练。该模型已被迁移至PyTorch,并利用timm库进行图像嵌入和特征图提取。在4.7M参数和0.4 GMACs的架构下,实现了高效性能与计算资源节约,适合作为多种视觉任务的解决方案。
swin-base-patch4-window12-384 - 高效图像分类的Swin Transformer视觉模型
自注意力机制Swin Transformer视觉转换器图像分类Huggingface层次特征图开源项目模型Github
Swin Transformer是一款视觉Transformer,通过使用层级特征图和移窗技术,进行高效图像分类。模型在ImageNet-1k数据集上以384x384分辨率训练,具备线性计算复杂度,使其适用于图像分类和密集识别任务。模型可用于原始图像分类,或者在模型集中寻找细化版本,适合处理计算密集型任务。
siglip-base-patch16-256-multilingual - 基于Sigmoid损失函数的多语言视觉语言模型
图像分类Huggingface开源项目模型WebLI数据集Github零样本学习多模态模型SigLIP
SigLIP是一个基于CLIP架构的多语言视觉语言模型,通过Sigmoid损失函数优化训练效果。模型在WebLI数据集上以256x256分辨率预训练,实现零样本图像分类和图文检索功能。相比CLIP模型,在批量处理和整体性能上都有提升。模型经过16个TPU-v4芯片训练,支持多语言处理,主要应用于图像分类和跨模态检索任务。
beit_base_patch16_384.in22k_ft_in22k_in1k - 高效的BEiT自监督图像分类与嵌入模型
图像分类自监督学习BEiTHuggingface视觉TransformerImageNetGithub开源项目模型
BEiT图像分类模型在ImageNet-22k上通过DALL-E dVAE自监督掩码图像建模进行训练,并在ImageNet-22k和ImageNet-1k上进行微调。特点包括易于实现图像分类和生成图像嵌入,具有86.7百万参数,支持384x384图像。模型适合通过timm库高效调用,适用于多种计算机视觉应用。
samvit_base_patch16.sa1b - 高效的图像特征提取与分类工具
图像分类图像特征提取samvit_base_patch16.sa1bHuggingfaceGithub开源项目模型预训练Vision Transformer
Segment-Anything Vision Transformer(SAM ViT)模型专注于图像特征提取与分类,不含分割头。使用MAE权重进行初始化,并通过SA-1B数据集的预训练,展示出89.7M的参数量及486.4 GMACs的计算性能,适宜处理1024x1024图像。Python代码示例提供了图像分类与嵌入应用方式,用户可通过timm库使用预训练模型‘samvit_base_patch16.sa1b’以提升图像分析效率。
sdxl-detector - 高效分类现代图像与Wikimedia-SDXL数据优化模型
Github模型AutoTrain开源项目SDXL图像分类HuggingfaceWikimediaAI艺术检测器
SDXL Detector专为精确分类Wikimedia-SDXL图像对而设计,通过微调umm-maybe AI art detector模型,有效提高了对现代扩散模型和非艺术性图像的识别能力。尽管对旧版本生成模型图像的检测能力可能不如原始模型,SDXL Detector适合非商业用途,凭借AutoTrain训练展现出高效性能,如出色的f1得分和精准度。
convnextv2_base.fcmae_ft_in22k_in1k_384 - 高效图像识别与特征开发的开源解决方案
ImageNet图像分类卷积神经网络开源项目模型Huggingface特征提取ConvNeXt-V2Github
ConvNeXt-V2是一款基于全卷积掩码自编码器(FCMAE)预训练的图像分类模型,能够高效处理ImageNet-22k和ImageNet-1k数据集。模型拥有88.7M的参数和45.21 GMACs,适合精准的图像识别和特征开发。兼容timm库,支持图像分类、特征图提取和图像嵌入生成等应用场景。通过简单的Python代码即可调用该模型,提升开发效率。
convnext-tiny-224 - 高效图像分类 ConvNeXT卷积神经网络的新突破
图像分类HuggingfaceVision TransformersImageNetGithub开源项目模型ResNetConvNeXT
ConvNeXT是一款卷积模型,具有优于Vision Transformers的表现。设计灵感源于Swin Transformer,并对ResNet进行了现代化调整,专注于图像分类。ConvNeXT-tiny-224在ImageNet-1k数据集训练后,提供高效的分类能力。模型集线器提供适用不同任务的微调版本。
相关文章