#图像分类
vit-mae-base - MAE预训练Vision Transformer模型的图像处理能力
Github开源项目预训练模型深度学习计算机视觉模型图像分类HuggingfaceVision Transformer
Vision Transformer (ViT)模型采用MAE方法预训练,通过随机遮蔽75%图像块实现自监督学习。该模型能有效捕捉图像内在表示,适用于图像分类等多种计算机视觉任务。研究人员可利用其预训练编码器提取特征或进行微调,以满足特定应用需求。
convnextv2_tiny.fcmae_ft_in22k_in1k_384 - ConvNeXt-V2:精准高效的图像分类模型
Github开源项目模型图像分类ImageNetHuggingface自动编码器卷积网络ConvNeXt V2
ConvNeXt-V2 模型具备高效的图像分类能力,通过全卷积掩码自编码器架构进行预训练,并在 ImageNet-22k 和 ImageNet-1k 数据集上进行精调。该模型具备 28.6M 参数量、13.1 GMACs 计算量,支持 384x384 的图像尺寸。通过 timm 库使用,支持图像分类、特征图提取和图像嵌入等多种视觉任务。
tf_mobilenetv3_large_075.in1k - MobileNet-v3大规模图像分类与特征提取模型
Github开源项目深度学习模型图像分类HuggingfaceImageNet-1k特征图提取MobileNetV3
该模型为MobileNet-v3图像分类模型,基于ImageNet-1k数据集在Tensorflow上训练,并由Ross Wightman移植至PyTorch实现。使用224x224图像,拥有4.0百万参数和0.2 GMACs的效率。提供代码示例,帮助实现图像分类、特征提取和图像嵌入。更详细的比较信息可于timm项目页面查阅。
tf_efficientnetv2_xl.in21k_ft_in1k - EfficientNet-v2开源图像分类与特征抽取模型
Github开源项目TensorFlow模型图像分类HuggingfaceImageNet-21ktimmEfficientNet-v2
EfficientNet-v2模型在ImageNet-21k上预训练并在ImageNet-1k上微调,具备图像分类、特征提取与图像嵌入功能。初始使用Tensorflow训练,后由Ross Wightman移植至PyTorch。模型拥有208.1百万参数与52.8 GMACs计算量,支持训练时384x384与测试时512x512的图像尺寸。通过timm库,便可创建预训练模型,用于图像分类及特征映射。本模型在研究与应用中表现出强大的性能及灵活性。
ViT-B-16-SigLIP-256 - WebLI数据集训练的SigLIP图像-文本对比学习模型
Github开源项目模型图像分类Huggingface模型使用SigLIPWebLI图像文本对比
ViT-B-16-SigLIP-256是基于WebLI数据集训练的SigLIP模型,支持零样本图像分类。该模型兼容OpenCLIP和timm库,通过对比学习生成图像和文本特征表示。它能够计算图像与文本标签的相似度,适用于灵活的图像分类和检索应用。SigLIP采用Sigmoid损失函数进行语言-图像预训练,提高了模型性能。
xception41.tf_in1k - Xception架构的高效图像分类神经网络
Github开源项目深度学习模型图像分类HuggingfacetimmImageNet-1kXception
xception41.tf_in1k是一款基于Xception架构的图像分类模型,在ImageNet-1k数据集上训练而成。该模型采用深度可分离卷积技术,拥有2700万参数和9.3 GMACs的计算量,支持图像分类、特征图提取和图像嵌入等功能。通过timm库,研究者可以方便地加载预训练模型进行推理或微调。xception41.tf_in1k在维持高精度的同时优化了计算效率,适用于多种计算机视觉任务。
efficientnet_b4.ra2_in1k - EfficientNet B4图像分类模型 ImageNet-1k数据集训练
Github开源项目深度学习模型图像分类ImageNetHuggingfaceEfficientNettimm
efficientnet_b4.ra2_in1k是基于EfficientNet架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用RandAugment RA2增强方法,使用RMSProp优化器,具有1930万参数和3.1 GMACs计算量。支持320x320训练图像和384x384测试图像,可用于图像分类、特征提取和嵌入等任务,为计算机视觉领域提供高效解决方案。
resnet-152 - 深入解析ResNet-152在图像分类中的应用
Github开源项目深度学习卷积神经网络模型图像识别图像分类HuggingfaceResNet-152
ResNet-152 v1.5模型在ImageNet-1k上预训练,采用224x224分辨率,改进后的下采样策略提升了模型的准确性。该模型可用于图像分类,亦可在模型中心找到特定任务的微调版本。
vit_large_patch14_clip_224.openai_ft_in12k_in1k - 视觉变压器用于图像分类和特征嵌入的高级应用
Github开源项目模型CLIP图像分类HuggingfaceVision Transformer模型比较WIT-400M
OpenAI开发的视觉变压器(ViT)模型在WIT-400M图像文本对上通过CLIP进行预训练,并在ImageNet-12k和ImageNet-1k上微调,适用于图像分类与特征嵌入生成。模型运行在timm库中,具有高参数量与计算效率,适用于高精度图像识别,支持实时与批量处理应用。
vit_base_patch16_clip_384.laion2b_ft_in12k_in1k - LAION-2B预训练的Vision Transformer图像分类模型
Github开源项目深度学习模型图像分类ImageNetHuggingfaceVision TransformerLAION-2B
该模型基于Vision Transformer架构,在LAION-2B数据集上预训练,随后在ImageNet-12k和ImageNet-1k上微调。模型接受384x384像素的输入图像,包含8690万个参数。除图像分类外,还可用于生成图像特征嵌入。通过timm框架实现,提供灵活配置和简便使用,适用于多种计算机视觉任务。
cards_bottom_right_swin-tiny-patch4-window7-224-finetuned-v2 - 基于Swin Transformer图像分类模型实现60.79%精度
Github开源项目深度学习模型训练模型图像分类Huggingface机器学习优化microsoft/swin-tiny-patch4-window7-224
这是一个基于microsoft/swin-tiny-patch4-window7-224架构的图像分类模型。经过30轮训练迭代,模型采用128批量大小,5e-05学习率,结合Adam优化器与线性学习率调度策略。模型性能从初始的41.56%提升至60.79%,实现稳定的分类效果。
deit_small_patch16_224.fb_in1k - DeiT架构图像分类模型 基于ImageNet-1k训练的高效Transformer
Github开源项目深度学习神经网络计算机视觉模型图像分类HuggingfaceDeiT
DeiT小型模型是一种基于Transformer架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用注意力蒸馏技术,拥有2210万参数,适用于224x224像素图像输入。除图像分类外,它还可用于特征提取。模型通过timm库提供预训练权重,便于加载和推理。其数据效率和蒸馏技术使其在计算机视觉领域表现出色。
swin-base-patch4-window7-224 - 微软开源分层视觉Transformer图像分类模型
Github开源项目深度学习模型图像分类ImageNetHuggingface视觉模型Swin Transformer
Swin Transformer是Microsoft开发的图像分类模型,通过层级特征图构建和局部窗口注意力机制实现线性计算复杂度。模型在ImageNet-1k数据集上完成224x224分辨率训练,可作为通用主干网络支持图像分类和密集识别任务。其创新的窗口划分策略使模型在处理大尺寸图像时具有更高的效率。
cards-top_left_swin-tiny-patch4-window7-224-finetuned-dough_100_epoch - Swin-Tiny模型微调的图像分类系统 在ImageFolder数据集达58.16%准确率
Github开源项目机器学习模型微调模型图像分类Huggingface准确率Swin Transformer
本项目基于microsoft/swin-tiny-patch4-window7-224模型微调,构建了一个图像分类系统。经过100轮训练,在ImageFolder数据集上达到58.16%的分类准确率。项目使用Adam优化器和线性学习率调度器,总批量大小为128。系统基于PyTorch框架开发,为图像分类任务提供了实用的基础模型。
cards_bottom_left_swin-tiny-patch4-window7-224-finetuned-dough_100_epochs - 基于 Swin Transformer 的图像分类模型实现
人工智能Github开源项目机器学习模型图像分类Huggingface数据训练microsoft/swin-tiny-patch4-window7-224
这是一个基于 Microsoft Swin-Tiny 的图像分类模型。模型经过100轮训练,使用Adam优化器和线性学习率调度,batch size为128,在测试集达到59.47%准确率。该模型结合了Transformer架构与图像处理技术,可用于图像分类任务。模型采用了先进的深度学习技术,通过对大量图像数据的学习,提高了分类的准确性和效率。适用于各种需要自动化图像分类的应用场景。
xcit_medium_24_p8_224.fb_in1k - 基于XCiT架构的图像分类与特征提取模型
Github开源项目深度学习模型图像分类Huggingface模型预训练ImageNet-1kXCiT
XCiT是Facebook Research开发的图像分类模型,在ImageNet-1k数据集上完成预训练。模型采用Cross-Covariance Image Transformer架构,拥有8430万参数,支持224x224图像输入分析。通过timm库实现,既可用于图像分类,也可作为特征提取器生成图像嵌入向量,为开发者提供便捷的模型加载和图像处理功能。
convnext_base.fb_in22k_ft_in1k_384 - 高效的ConvNeXt图像分类解决方案
Github开源项目模型图像分类ImageNetHuggingface特征提取ConvNeXt模型对比
ConvNeXt图像分类模型经过ImageNet-22k的预训练和ImageNet-1k的微调,以384x384分辨率高效执行分类任务。拥有88.6M参数和45.2 GMACs,支持图像分类、特征提取和图像嵌入等功能。适用于多种机器学习任务,其高分辨率处理能力使其在深度学习领域具有良好表现。
siglip-base-patch16-384 - 改进型CLIP架构的图像文本预训练模型
Github开源项目深度学习多模态模型计算机视觉模型图像分类HuggingfaceSigLIP
SigLIP是基于CLIP架构的多模态模型,通过Sigmoid损失函数优化了图像文本预训练过程。模型在WebLI数据集完成预训练,支持零样本图像分类和文本检索任务。其特点是无需全局相似度标准化,既可支持大规模批量训练,也适用于小批量场景。
tf_efficientnet_b7.ns_jft_in1k - EfficientNet B7图像分类模型 基于Noisy Student半监督学习
Github开源项目模型图像分类ImageNetHuggingfaceEfficientNet模型卡timm
模型采用EfficientNet B7架构,结合Noisy Student半监督学习,在ImageNet-1k和JFT-300m数据集上训练。参数量66.3M,输入图像尺寸600x600,支持图像分类、特征提取和嵌入向量生成。已从TensorFlow移植至PyTorch,可应用于高精度图像识别任务。
xcit_tiny_12_p8_224.fb_in1k - 跨协方差图像转换器实现图像分类与特征提取
Github开源项目神经网络机器学习模型图像分类HuggingfaceImageNet-1kXCiT
基于XCiT(Cross-Covariance Image Transformer)架构开发的图像分类模型,在ImageNet-1k数据集上完成预训练。模型包含670万参数量,GMACs为4.8,支持224x224图像输入分辨率。通过跨协方差注意力机制实现图像特征表示,可用于图像分类和特征提取。模型已集成到timm库中,支持top-k分类预测和特征向量提取功能。
vit_tiny_patch16_224.augreg_in21k - 增强与正则化的ViT图像分类模型
Github开源项目模型图像分类Huggingface数据增强Vision TransformerImageNet-21k特征骨干
这是一个高效的Vision Transformer(ViT)图像分类模型,经过增强和正则化,在ImageNet-21k上进行了训练。由论文作者在JAX中开发,并由Ross Wightman移植到PyTorch。模型的类型包括图像分类和特征提取,参数量为9.7百万,1.1 GMACs,处理图像尺寸为224x224。项目中有图像分类和嵌入的代码示例,以及支持特定数据转换的功能,提升模型性能。该模型适用于高效图像识别应用,并提供开发者比较参考的方法。
vgg16.tv_in1k - 基于ImageNet-1k训练的VGG16图像分类模型
Github开源项目深度学习神经网络模型图像分类ImageNetVGGHuggingface
VGG16是一个经典的深度学习图像分类模型,基于ImageNet-1k数据集训练而成。模型包含1.384亿个参数,处理224x224像素输入图像,支持图像分类、特征图提取和图像嵌入等功能。借助timm库可实现模型的快速部署,广泛应用于计算机视觉领域。
regnety_120.sw_in12k_ft_in1k - 高级图像分类模型,优化大规模数据集的性能
Github开源项目预训练模型数据集图像分类Huggingface特征提取RegNetY
RegNetY-12GF模型致力于图像分类,先在ImageNet-12k上预训练,再在ImageNet-1k上微调。其结构支持多项增强功能,如随机深度和梯度检查点,提高模型准确性和效率。基于timm库实现,广泛用于特征图提取和图像嵌入,适用于多种图像处理场景。
inception_v4.tf_in1k - 面向图像分类的Inception-v4预训练模型
Github开源项目深度学习神经网络模型图像分类HuggingfaceImageNet-1kInception-v4
Inception-v4是一个在ImageNet-1k数据集上预训练的深度学习模型,参数量为4270万,支持299x299图像输入。通过timm库可实现图像分类、特征图提取和图像嵌入等核心功能。该模型从TensorFlow移植至PyTorch,适用于计算机视觉领域的各类图像处理任务。
convnext_small.fb_in22k_ft_in1k_384 - ConvNeXt模型提升图像分类精度的预训练与微调方案
Github开源项目模型图像分类ImageNetHuggingface模型比较特征提取ConvNeXt
ConvNeXt是一款用于图像分类的模型,于ImageNet-22k数据集预训练,并在ImageNet-1k上微调。该模型拥有50.2百万参数和25.6 GMACs,支持384x384尺寸的图像处理。除了图像分类外,它还支持特征图和图像嵌入提取。凭借其优异的性能和高效的图像处理能力,ConvNeXt被广泛应用于复杂的图像识别任务。通过timm库可实现模型便捷的加载与应用,适用于各种研究与工程需求。
convit_small.fb_in1k - ConViT结合软卷积特性的图像分类框架
Github开源项目深度学习神经网络模型图像分类HuggingfaceImageNet-1kConViT
ConViT是一个在ImageNet-1k数据集上训练的图像分类模型,结合了CNN和Transformer优势。模型参数量2780万,支持224x224图像输入,可用于分类和特征提取任务。模型提供预训练权重,适用于多种计算机视觉应用场景。
resnet152d.ra2_in1k - ResNet152d.ra2_in1k模型在图像分类中的应用与特点
Github开源项目模型图像分类HuggingfacetimmImageNet-1kRandAugmentResNet-D
ResNet152d.ra2_in1k是基于ResNet-D架构的图像分类模型,采用ReLU激活和三层3x3卷积stem结构。该模型在ImageNet-1k上训练,并使用RandAugment RA2策略、RMSProp优化器和EMA权重平均进行优化,支持动态学习率调度和特征映射提取,其性能在复杂图像处理任务中表现优秀。
convnextv2_large.fcmae - 用于图像特征提取的自监督卷积模型
Github开源项目模型图像分类自监督学习Huggingface特征提取ImageNet-1kConvNeXt-V2
ConvNeXt-V2是一种运用全卷积掩码自动编码器框架进行预训练的自监督特征表示模型,适用于微调和特征提取。模型适用于图像分类、特征图提取和图像嵌入,具备较高的参数和计算效率,可在ImageNet-1k等大规模数据集上展现出色表现。通过timm库加载,模型提供了处理多种图像任务的灵活性与精确度,是计算机视觉领域的重要工具。
dpn98.mx_in1k - 基于DPN架构的ImageNet图像分类深度学习模型
Github开源项目深度学习机器学习模型图像分类ImageNetHuggingfaceDPN
DPN98是一个在ImageNet-1k数据集上训练的图像分类模型,采用双路径网络架构,具有6160万参数规模。该模型支持224x224像素输入,可用于图像分类、特征提取和图像嵌入。模型已从MXNet迁移至PyTorch框架,并提供预训练权重,适合进行计算机视觉研究和应用开发。
ViT-L-16-HTxt-Recap-CLIP - 对比图文模型在零样本图像分类中的新进展
Github开源项目模型CLIP图像分类HuggingfaceLLaMA-3对比学习数据集偏见
这个模型利用Recap-DataComp-1B数据集训练,旨在实现零样本图像分类。通过OpenCLIP库,用户能够编码和分类图像与文本。模型的数据源自网络抓取并经过重新标注,可能会包含偏见或不准确之处,请在使用时注意这些风险。更多数据集详情可以查阅数据集卡片页面。
vit-large-patch16-224 - 大型视觉Transformer模型在ImageNet数据集上的图像分类实现
Github开源项目深度学习计算机视觉模型图像分类ImageNetHuggingfaceVision Transformer
Vision Transformer大型模型在ImageNet-21k数据集上完成预训练,包含1400万张图像和21,843个分类。模型通过将图像分割为16x16像素块进行处理,支持224x224分辨率输入,并在ImageNet 2012数据集上进行微调。该模型基于PyTorch框架实现,可用于图像分类等视觉任务。
resnet18.tv_in1k - 精简高效的ResNet18图像分类模型
Github开源项目深度学习神经网络模型架构模型图像分类HuggingfaceResNet
resnet18.tv_in1k是一个基于ResNet-B架构的图像分类模型,采用ReLU激活函数和7x7卷积池化层。模型参数量为11.7M,运算量为1.8 GMACs,兼具轻量和高效。支持图像分类、特征图提取和图像嵌入,可处理224x224尺寸图像。该模型使用ImageNet-1k数据集训练,是torchvision的原始权重模型,适用于需要平衡性能和资源的应用场景。
convnext_small.in12k_ft_in1k_384 - 高效的ConvNeXt图像分类与特征提取预训练模型介绍
Github开源项目预训练模型图像分类ImageNetHuggingfaceConvNeXttimm
ConvNeXt图像分类模型,通过timm库在ImageNet-12k及ImageNet-1k上进行预训练与微调,提供图像特征提取与分类功能。支持TPU和8xGPU训练方式,适合大规模数据集处理。模型拥有50.2M参数和25.6 GMACs,支持384x384图像输入,并兼具特征图提取与图像嵌入功能,适用于高效图像处理需求。更多性能数据及结果可在timm库查阅。
vit_base_patch32_clip_448.laion2b_ft_in12k_in1k - LAION-2B预训练的ViT图像分类模型
Github开源项目模型图像分类ImageNetHuggingface视觉TransformerLAION-2Btimm
这是一个基于Vision Transformer架构的图像分类模型,在LAION-2B数据集预训练后在ImageNet-12k和ImageNet-1k上微调。模型包含8830万参数,支持448x448输入图像,可用于图像分类和特征提取。该模型通过timm库实现,提供简单使用示例,采用Apache-2.0许可。
densenet201.tv_in1k - DenseNet图像分类模型实现高效特征提取与精准分类
Github开源项目深度学习计算机视觉模型图像分类DenseNetImageNetHuggingface
DenseNet201是一个在ImageNet-1k数据集上训练的图像分类模型。该模型拥有2000万参数,支持224x224像素输入,适用于图像分类、特征图提取和图像嵌入等任务。其密集连接的卷积网络结构不仅提供准确的分类结果,还能生成丰富的特征表示。模型通过timm库提供预训练权重,便于快速部署和使用。
I-live-well-foodai - 视觉transformer食品图像智能分类系统
Github开源项目模型训练机器学习模型图像分类Huggingface视觉模型vit-base-patch16-224
这是一个采用Google视觉transformer技术开发的食品图像分类系统,通过对大量食品图片数据的深度学习,模型识别准确率达到72.33%。该系统可以精准识别各类食品图像,在智能餐饮分析、营养管理等领域具有实际应用价值。
相关文章