#图像分类

deit_small_patch16_224.fb_in1k - DeiT架构图像分类模型 基于ImageNet-1k训练的高效Transformer
计算机视觉神经网络开源项目DeiT深度学习模型图像分类GithubHuggingface
DeiT小型模型是一种基于Transformer架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用注意力蒸馏技术,拥有2210万参数,适用于224x224像素图像输入。除图像分类外,它还可用于特征提取。模型通过timm库提供预训练权重,便于加载和推理。其数据效率和蒸馏技术使其在计算机视觉领域表现出色。
swin-base-patch4-window7-224 - 微软开源分层视觉Transformer图像分类模型
开源项目深度学习模型视觉模型ImageNetSwin Transformer图像分类GithubHuggingface
Swin Transformer是Microsoft开发的图像分类模型,通过层级特征图构建和局部窗口注意力机制实现线性计算复杂度。模型在ImageNet-1k数据集上完成224x224分辨率训练,可作为通用主干网络支持图像分类和密集识别任务。其创新的窗口划分策略使模型在处理大尺寸图像时具有更高的效率。
cards-top_left_swin-tiny-patch4-window7-224-finetuned-dough_100_epoch - Swin-Tiny模型微调的图像分类系统 在ImageFolder数据集达58.16%准确率
模型微调机器学习Github图像分类Swin TransformerHuggingface开源项目模型准确率
本项目基于microsoft/swin-tiny-patch4-window7-224模型微调,构建了一个图像分类系统。经过100轮训练,在ImageFolder数据集上达到58.16%的分类准确率。项目使用Adam优化器和线性学习率调度器,总批量大小为128。系统基于PyTorch框架开发,为图像分类任务提供了实用的基础模型。
cards_bottom_left_swin-tiny-patch4-window7-224-finetuned-dough_100_epochs - 基于 Swin Transformer 的图像分类模型实现
机器学习人工智能Github图像分类Huggingface数据训练开源项目模型microsoft/swin-tiny-patch4-window7-224
这是一个基于 Microsoft Swin-Tiny 的图像分类模型。模型经过100轮训练,使用Adam优化器和线性学习率调度,batch size为128,在测试集达到59.47%准确率。该模型结合了Transformer架构与图像处理技术,可用于图像分类任务。模型采用了先进的深度学习技术,通过对大量图像数据的学习,提高了分类的准确性和效率。适用于各种需要自动化图像分类的应用场景。
xcit_medium_24_p8_224.fb_in1k - 基于XCiT架构的图像分类与特征提取模型
Huggingface图像分类模型深度学习Github模型预训练XCiT开源项目ImageNet-1k
XCiT是Facebook Research开发的图像分类模型,在ImageNet-1k数据集上完成预训练。模型采用Cross-Covariance Image Transformer架构,拥有8430万参数,支持224x224图像输入分析。通过timm库实现,既可用于图像分类,也可作为特征提取器生成图像嵌入向量,为开发者提供便捷的模型加载和图像处理功能。
convnext_base.fb_in22k_ft_in1k_384 - 高效的ConvNeXt图像分类解决方案
图像分类Huggingface特征提取开源项目模型GithubImageNetConvNeXt模型对比
ConvNeXt图像分类模型经过ImageNet-22k的预训练和ImageNet-1k的微调,以384x384分辨率高效执行分类任务。拥有88.6M参数和45.2 GMACs,支持图像分类、特征提取和图像嵌入等功能。适用于多种机器学习任务,其高分辨率处理能力使其在深度学习领域具有良好表现。
siglip-base-patch16-384 - 改进型CLIP架构的图像文本预训练模型
计算机视觉开源项目深度学习模型图像分类SigLIP多模态模型GithubHuggingface
SigLIP是基于CLIP架构的多模态模型,通过Sigmoid损失函数优化了图像文本预训练过程。模型在WebLI数据集完成预训练,支持零样本图像分类和文本检索任务。其特点是无需全局相似度标准化,既可支持大规模批量训练,也适用于小批量场景。
tf_efficientnet_b7.ns_jft_in1k - EfficientNet B7图像分类模型 基于Noisy Student半监督学习
Huggingface开源项目模型卡模型EfficientNetImageNet图像分类Githubtimm
模型采用EfficientNet B7架构,结合Noisy Student半监督学习,在ImageNet-1k和JFT-300m数据集上训练。参数量66.3M,输入图像尺寸600x600,支持图像分类、特征提取和嵌入向量生成。已从TensorFlow移植至PyTorch,可应用于高精度图像识别任务。
xcit_tiny_12_p8_224.fb_in1k - 跨协方差图像转换器实现图像分类与特征提取
神经网络开源项目模型ImageNet-1kXCiT图像分类机器学习GithubHuggingface
基于XCiT(Cross-Covariance Image Transformer)架构开发的图像分类模型,在ImageNet-1k数据集上完成预训练。模型包含670万参数量,GMACs为4.8,支持224x224图像输入分辨率。通过跨协方差注意力机制实现图像特征表示,可用于图像分类和特征提取。模型已集成到timm库中,支持top-k分类预测和特征向量提取功能。
vit_tiny_patch16_224.augreg_in21k - 增强与正则化的ViT图像分类模型
开源项目特征骨干模型GithubHuggingfaceVision TransformerImageNet-21k图像分类数据增强
这是一个高效的Vision Transformer(ViT)图像分类模型,经过增强和正则化,在ImageNet-21k上进行了训练。由论文作者在JAX中开发,并由Ross Wightman移植到PyTorch。模型的类型包括图像分类和特征提取,参数量为9.7百万,1.1 GMACs,处理图像尺寸为224x224。项目中有图像分类和嵌入的代码示例,以及支持特定数据转换的功能,提升模型性能。该模型适用于高效图像识别应用,并提供开发者比较参考的方法。
vgg16.tv_in1k - 基于ImageNet-1k训练的VGG16图像分类模型
神经网络开源项目深度学习模型ImageNet图像分类VGGGithubHuggingface
VGG16是一个经典的深度学习图像分类模型,基于ImageNet-1k数据集训练而成。模型包含1.384亿个参数,处理224x224像素输入图像,支持图像分类、特征图提取和图像嵌入等功能。借助timm库可实现模型的快速部署,广泛应用于计算机视觉领域。
regnety_120.sw_in12k_ft_in1k - 高级图像分类模型,优化大规模数据集的性能
预训练图像分类RegNetY开源项目模型Huggingface特征提取数据集Github
RegNetY-12GF模型致力于图像分类,先在ImageNet-12k上预训练,再在ImageNet-1k上微调。其结构支持多项增强功能,如随机深度和梯度检查点,提高模型准确性和效率。基于timm库实现,广泛用于特征图提取和图像嵌入,适用于多种图像处理场景。
inception_v4.tf_in1k - 面向图像分类的Inception-v4预训练模型
GithubInception-v4图像分类Huggingface深度学习ImageNet-1k开源项目神经网络模型
Inception-v4是一个在ImageNet-1k数据集上预训练的深度学习模型,参数量为4270万,支持299x299图像输入。通过timm库可实现图像分类、特征图提取和图像嵌入等核心功能。该模型从TensorFlow移植至PyTorch,适用于计算机视觉领域的各类图像处理任务。
convnext_small.fb_in22k_ft_in1k_384 - ConvNeXt模型提升图像分类精度的预训练与微调方案
特征提取ImageNet模型比较模型Github开源项目图像分类ConvNeXtHuggingface
ConvNeXt是一款用于图像分类的模型,于ImageNet-22k数据集预训练,并在ImageNet-1k上微调。该模型拥有50.2百万参数和25.6 GMACs,支持384x384尺寸的图像处理。除了图像分类外,它还支持特征图和图像嵌入提取。凭借其优异的性能和高效的图像处理能力,ConvNeXt被广泛应用于复杂的图像识别任务。通过timm库可实现模型便捷的加载与应用,适用于各种研究与工程需求。
convit_small.fb_in1k - ConViT结合软卷积特性的图像分类框架
Github图像分类Huggingface深度学习ConViTImageNet-1k开源项目神经网络模型
ConViT是一个在ImageNet-1k数据集上训练的图像分类模型,结合了CNN和Transformer优势。模型参数量2780万,支持224x224图像输入,可用于分类和特征提取任务。模型提供预训练权重,适用于多种计算机视觉应用场景。
resnet152d.ra2_in1k - ResNet152d.ra2_in1k模型在图像分类中的应用与特点
图像分类ResNet-DImageNet-1kRandAugmentHuggingfacetimmGithub开源项目模型
ResNet152d.ra2_in1k是基于ResNet-D架构的图像分类模型,采用ReLU激活和三层3x3卷积stem结构。该模型在ImageNet-1k上训练,并使用RandAugment RA2策略、RMSProp优化器和EMA权重平均进行优化,支持动态学习率调度和特征映射提取,其性能在复杂图像处理任务中表现优秀。
convnextv2_large.fcmae - 用于图像特征提取的自监督卷积模型
图像分类ConvNeXt-V2ImageNet-1k自监督学习HuggingfaceGithub开源项目模型特征提取
ConvNeXt-V2是一种运用全卷积掩码自动编码器框架进行预训练的自监督特征表示模型,适用于微调和特征提取。模型适用于图像分类、特征图提取和图像嵌入,具备较高的参数和计算效率,可在ImageNet-1k等大规模数据集上展现出色表现。通过timm库加载,模型提供了处理多种图像任务的灵活性与精确度,是计算机视觉领域的重要工具。
dpn98.mx_in1k - 基于DPN架构的ImageNet图像分类深度学习模型
ImageNet图像分类模型深度学习GithubDPN机器学习开源项目Huggingface
DPN98是一个在ImageNet-1k数据集上训练的图像分类模型,采用双路径网络架构,具有6160万参数规模。该模型支持224x224像素输入,可用于图像分类、特征提取和图像嵌入。模型已从MXNet迁移至PyTorch框架,并提供预训练权重,适合进行计算机视觉研究和应用开发。
ViT-L-16-HTxt-Recap-CLIP - 对比图文模型在零样本图像分类中的新进展
图像分类CLIP数据集偏见HuggingfaceLLaMA-3Github开源项目对比学习模型
这个模型利用Recap-DataComp-1B数据集训练,旨在实现零样本图像分类。通过OpenCLIP库,用户能够编码和分类图像与文本。模型的数据源自网络抓取并经过重新标注,可能会包含偏见或不准确之处,请在使用时注意这些风险。更多数据集详情可以查阅数据集卡片页面。
vit-large-patch16-224 - 大型视觉Transformer模型在ImageNet数据集上的图像分类实现
Github图像分类HuggingfaceVision Transformer深度学习ImageNet开源项目模型计算机视觉
Vision Transformer大型模型在ImageNet-21k数据集上完成预训练,包含1400万张图像和21,843个分类。模型通过将图像分割为16x16像素块进行处理,支持224x224分辨率输入,并在ImageNet 2012数据集上进行微调。该模型基于PyTorch框架实现,可用于图像分类等视觉任务。
resnet18.tv_in1k - 精简高效的ResNet18图像分类模型
ResNet神经网络图像分类模型深度学习Github模型架构Huggingface开源项目
resnet18.tv_in1k是一个基于ResNet-B架构的图像分类模型,采用ReLU激活函数和7x7卷积池化层。模型参数量为11.7M,运算量为1.8 GMACs,兼具轻量和高效。支持图像分类、特征图提取和图像嵌入,可处理224x224尺寸图像。该模型使用ImageNet-1k数据集训练,是torchvision的原始权重模型,适用于需要平衡性能和资源的应用场景。
convnext_small.in12k_ft_in1k_384 - 高效的ConvNeXt图像分类与特征提取预训练模型介绍
开源项目模型timmImageNetGithubHuggingfaceConvNeXt预训练图像分类
ConvNeXt图像分类模型,通过timm库在ImageNet-12k及ImageNet-1k上进行预训练与微调,提供图像特征提取与分类功能。支持TPU和8xGPU训练方式,适合大规模数据集处理。模型拥有50.2M参数和25.6 GMACs,支持384x384图像输入,并兼具特征图提取与图像嵌入功能,适用于高效图像处理需求。更多性能数据及结果可在timm库查阅。
vit_base_patch32_clip_448.laion2b_ft_in12k_in1k - LAION-2B预训练的ViT图像分类模型
ImageNetGithub开源项目图像分类LAION-2BtimmHuggingface视觉Transformer模型
这是一个基于Vision Transformer架构的图像分类模型,在LAION-2B数据集预训练后在ImageNet-12k和ImageNet-1k上微调。模型包含8830万参数,支持448x448输入图像,可用于图像分类和特征提取。该模型通过timm库实现,提供简单使用示例,采用Apache-2.0许可。
densenet201.tv_in1k - DenseNet图像分类模型实现高效特征提取与精准分类
ImageNetDenseNetGithub开源项目图像分类计算机视觉Huggingface深度学习模型
DenseNet201是一个在ImageNet-1k数据集上训练的图像分类模型。该模型拥有2000万参数,支持224x224像素输入,适用于图像分类、特征图提取和图像嵌入等任务。其密集连接的卷积网络结构不仅提供准确的分类结果,还能生成丰富的特征表示。模型通过timm库提供预训练权重,便于快速部署和使用。
I-live-well-foodai - 视觉transformer食品图像智能分类系统
Github模型训练开源项目vit-base-patch16-224图像分类视觉模型Huggingface机器学习模型
这是一个采用Google视觉transformer技术开发的食品图像分类系统,通过对大量食品图片数据的深度学习,模型识别准确率达到72.33%。该系统可以精准识别各类食品图像,在智能餐饮分析、营养管理等领域具有实际应用价值。
tf_efficientnet_l2.ns_jft_in1k - EfficientNet架构的大规模图像识别与特征提取模型
ImageNetGithub开源项目图像分类EfficientNetHuggingface神经网络深度学习模型
基于EfficientNet架构开发的图像分类模型,采用Noisy Student半监督学习方法,结合ImageNet-1k和JFT-300m数据集进行训练。模型支持800x800分辨率输入,包含4.8亿参数,可用于图像分类、特征提取和嵌入向量生成。借助timm库实现模型的快速部署,适用于各类图像识别任务。
tf_efficientnet_b1.ns_jft_in1k - EfficientNet图像分类模型,无监督学习的图像标杆
Github开源项目JFT-300m图像分类PyTorchEfficientNetHuggingface半监督学习模型
本项目是一个EfficientNet图像分类模型,通过Noisy Student半监督学习在ImageNet-1k和JFT-300m数据集上使用Tensorflow训练,并移植到PyTorch中。它可以执行图像分类、特征提取和嵌入生成。拥有仅7.8M参数和高计算效率,适合研究深度学习模型的缩放和性能优化。
beit-base-patch16-224 - 基于BERT架构的图像分类模型BEiT在视觉特征学习的应用
BEiTImageNetGithub开源项目图像分类图像预处理Huggingface机器学习模型
BEiT是一个Vision Transformer架构的图像分类模型,通过在ImageNet-21k数据集进行自监督预训练并在ImageNet-1k上微调而来。模型采用BERT风格的预训练方法处理224x224分辨率图像,结合16x16像素块嵌入和视觉token预测机制,实现了图像特征的提取。其特点是使用相对位置编码替代绝对位置编码,并通过patch特征平均池化完成分类任务。
densenet121.ra_in1k - 基于RandAugment优化的DenseNet图像分类预训练模型
ImageNet图像分类开源项目模型Huggingface特征提取深度学习DenseNetGithub
DenseNet121是一个在ImageNet-1k数据集上预训练的图像分类模型,采用RandAugment数据增强策略优化。模型参数量为800万,支持多种输入分辨率,可用于图像分类、特征提取和embedding生成等计算机视觉任务。
CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg - 基于LAION-2B数据集的卷积神经网络达到79%零样本分类准确率
Github开源项目图像分类CLIPHuggingface神经网络机器学习ConvNext模型
CLIP ConvNeXt-XXLarge是一个在LAION-2B数据集上训练的大规模视觉语言模型,总参数量12亿,图像分辨率256x256。模型采用ConvNeXt-XXLarge图像结构和ViT-H-14规模的文本编码器,在ImageNet零样本分类上达到79%准确率。主要应用于图像分类、检索等研究任务。
xcit_nano_12_p8_224.fb_in1k - 基于跨协方差转换器的轻量级图像分类模型
ImageNetGithub开源项目图像分类计算机视觉Huggingface神经网络深度学习模型
xcit_nano_12_p8_224.fb_in1k采用跨协方差图像转换器(XCiT)架构,是一个参数量为3.0M的轻量级图像分类模型。模型在ImageNet-1k数据集上完成预训练,支持224x224尺寸的图像输入,可应用于图像分类和特征提取。模型通过跨协方差注意力机制降低计算复杂度,适合实际部署应用。
xcit_small_12_p16_224.fb_in1k - 跨协方差图像Transformer的高效视觉分类与特征提取模型
ImageNet计算机视觉图像分类Github开源项目模型Huggingface深度学习XCiT
XCiT (Cross-Covariance Image Transformer)是Facebook Research开发的视觉分类模型,采用创新的跨协方差注意力机制。模型在ImageNet-1k数据集预训练,包含2630万参数,处理224x224图像输入。通过优化计算效率,该模型在图像分类和特征提取任务中展现出稳定性能。
mobilenetv3_small_050.lamb_in1k - 探索资源有效利用的MobileNet-v3图像分类模型
图像分类Github开源项目timm模型Huggingface特征提取ImageNet-1kMobileNet-v3
该项目展示了在ImageNet-1k上训练的MobileNet-v3图像分类模型,强调其在资源受限环境中的适用性。使用LAMB优化器和EMA权重平均化,该模型参照ResNet Strikes Back设计,通过简化预处理流程,支持图像分类、特征提取和图像嵌入等多种深度学习任务,增强模型性能。
deit_tiny_patch16_224.fb_in1k - 高效数据处理的DeiT图像分类和特征提取模型
ImageNetTransformerDeiT图像分类开源项目timm模型HuggingfaceGithub
DeiT图像分类模型经过在ImageNet-1k数据集上的训练,通过注意力机制提高数据处理效率。它的紧凑架构具有5.7百万参数和1.3 GMACs,适用于224x224像素图像,可用于图像分类和嵌入生成。此项目具备广泛的库支持,易于集成,是研究者获取高效图像处理能力的理想工具。
vit-base-patch16-224-cifar10 - 视觉Transformer在CIFAR10上的图像分类优化
GithubCIFAR10开源项目图像分类Vision Transformer模型微调Huggingface深度学习模型
Vision Transformer (ViT) 模型经过ImageNet-21k数据集的预训练,并在CIFAR10数据集上微调,适用于224x224分辨率的图像分类任务。采用16x16像素的固定大小图像补丁进行特征提取,为下游任务提供了有效支持。在GitHub上访问相关代码,了解如何将该技术应用到各种项目中。
vit_small_r26_s32_384.augreg_in21k_ft_in1k - ResNet与Vision Transformer结合的图像分类模型解析
ImageNetGithub开源项目图像分类timmViTHuggingface增广正则化模型
该模型结合ResNet与Vision Transformer(ViT)的特点,专用于图像分类。最初在ImageNet-21k上训练,后在ImageNet-1k上微调,并在JAX中创建,由Ross Wightman移植到PyTorch环境中。模型采用了36.5M参数和27.7M激活,针对384x384图像进行了优化,通过增强和正则化技术提升了处理复杂图像任务的能力,适用于多种图像识别应用。