#图像分类

tf_efficientnet_l2.ns_jft_in1k - EfficientNet架构的大规模图像识别与特征提取模型
ImageNetGithub开源项目图像分类EfficientNetHuggingface神经网络深度学习模型
基于EfficientNet架构开发的图像分类模型,采用Noisy Student半监督学习方法,结合ImageNet-1k和JFT-300m数据集进行训练。模型支持800x800分辨率输入,包含4.8亿参数,可用于图像分类、特征提取和嵌入向量生成。借助timm库实现模型的快速部署,适用于各类图像识别任务。
tf_efficientnet_b1.ns_jft_in1k - EfficientNet图像分类模型,无监督学习的图像标杆
Github开源项目JFT-300m图像分类PyTorchEfficientNetHuggingface半监督学习模型
本项目是一个EfficientNet图像分类模型,通过Noisy Student半监督学习在ImageNet-1k和JFT-300m数据集上使用Tensorflow训练,并移植到PyTorch中。它可以执行图像分类、特征提取和嵌入生成。拥有仅7.8M参数和高计算效率,适合研究深度学习模型的缩放和性能优化。
beit-base-patch16-224 - 基于BERT架构的图像分类模型BEiT在视觉特征学习的应用
BEiTImageNetGithub开源项目图像分类图像预处理Huggingface机器学习模型
BEiT是一个Vision Transformer架构的图像分类模型,通过在ImageNet-21k数据集进行自监督预训练并在ImageNet-1k上微调而来。模型采用BERT风格的预训练方法处理224x224分辨率图像,结合16x16像素块嵌入和视觉token预测机制,实现了图像特征的提取。其特点是使用相对位置编码替代绝对位置编码,并通过patch特征平均池化完成分类任务。
densenet121.ra_in1k - 基于RandAugment优化的DenseNet图像分类预训练模型
ImageNet图像分类开源项目模型Huggingface特征提取深度学习DenseNetGithub
DenseNet121是一个在ImageNet-1k数据集上预训练的图像分类模型,采用RandAugment数据增强策略优化。模型参数量为800万,支持多种输入分辨率,可用于图像分类、特征提取和embedding生成等计算机视觉任务。
CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg - 基于LAION-2B数据集的卷积神经网络达到79%零样本分类准确率
Github开源项目图像分类CLIPHuggingface神经网络机器学习ConvNext模型
CLIP ConvNeXt-XXLarge是一个在LAION-2B数据集上训练的大规模视觉语言模型,总参数量12亿,图像分辨率256x256。模型采用ConvNeXt-XXLarge图像结构和ViT-H-14规模的文本编码器,在ImageNet零样本分类上达到79%准确率。主要应用于图像分类、检索等研究任务。
xcit_nano_12_p8_224.fb_in1k - 基于跨协方差转换器的轻量级图像分类模型
ImageNetGithub开源项目图像分类计算机视觉Huggingface神经网络深度学习模型
xcit_nano_12_p8_224.fb_in1k采用跨协方差图像转换器(XCiT)架构,是一个参数量为3.0M的轻量级图像分类模型。模型在ImageNet-1k数据集上完成预训练,支持224x224尺寸的图像输入,可应用于图像分类和特征提取。模型通过跨协方差注意力机制降低计算复杂度,适合实际部署应用。
xcit_small_12_p16_224.fb_in1k - 跨协方差图像Transformer的高效视觉分类与特征提取模型
ImageNet计算机视觉图像分类Github开源项目模型Huggingface深度学习XCiT
XCiT (Cross-Covariance Image Transformer)是Facebook Research开发的视觉分类模型,采用创新的跨协方差注意力机制。模型在ImageNet-1k数据集预训练,包含2630万参数,处理224x224图像输入。通过优化计算效率,该模型在图像分类和特征提取任务中展现出稳定性能。
mobilenetv3_small_050.lamb_in1k - 探索资源有效利用的MobileNet-v3图像分类模型
图像分类Github开源项目timm模型Huggingface特征提取ImageNet-1kMobileNet-v3
该项目展示了在ImageNet-1k上训练的MobileNet-v3图像分类模型,强调其在资源受限环境中的适用性。使用LAMB优化器和EMA权重平均化,该模型参照ResNet Strikes Back设计,通过简化预处理流程,支持图像分类、特征提取和图像嵌入等多种深度学习任务,增强模型性能。
deit_tiny_patch16_224.fb_in1k - 高效数据处理的DeiT图像分类和特征提取模型
ImageNetTransformerDeiT图像分类开源项目timm模型HuggingfaceGithub
DeiT图像分类模型经过在ImageNet-1k数据集上的训练,通过注意力机制提高数据处理效率。它的紧凑架构具有5.7百万参数和1.3 GMACs,适用于224x224像素图像,可用于图像分类和嵌入生成。此项目具备广泛的库支持,易于集成,是研究者获取高效图像处理能力的理想工具。
vit-base-patch16-224-cifar10 - 视觉Transformer在CIFAR10上的图像分类优化
GithubCIFAR10开源项目图像分类Vision Transformer模型微调Huggingface深度学习模型
Vision Transformer (ViT) 模型经过ImageNet-21k数据集的预训练,并在CIFAR10数据集上微调,适用于224x224分辨率的图像分类任务。采用16x16像素的固定大小图像补丁进行特征提取,为下游任务提供了有效支持。在GitHub上访问相关代码,了解如何将该技术应用到各种项目中。
vit_small_r26_s32_384.augreg_in21k_ft_in1k - ResNet与Vision Transformer结合的图像分类模型解析
ImageNetGithub开源项目图像分类timmViTHuggingface增广正则化模型
该模型结合ResNet与Vision Transformer(ViT)的特点,专用于图像分类。最初在ImageNet-21k上训练,后在ImageNet-1k上微调,并在JAX中创建,由Ross Wightman移植到PyTorch环境中。模型采用了36.5M参数和27.7M激活,针对384x384图像进行了优化,通过增强和正则化技术提升了处理复杂图像任务的能力,适用于多种图像识别应用。
efficientnet_b1.ft_in1k - 基于ImageNet-1k微调的EfficientNet图像分类模型
Github开源项目图像分类PyTorchEfficientNetHuggingface特征图提取ImageNet-1k模型
EfficientNet图像分类模型已在ImageNet-1k上进行微调,适用于PyTorch。该模型参数为7.8M,支持特征图提取和图像嵌入,可用作高效的图像分类工具。
ese_vovnet39b.ra_in1k - 高效实时的VoVNet-v2图像分类解决方案
图像分类Github开源项目timm模型VoVNet-v2Huggingface特征提取ImageNet-1k
VoVNet-v2是一种预训练于ImageNet-1k的图像分类模型,含高效计算和低能耗优点,并采用RandAugment优化。适用于特征骨干网络,支持图像分类、特征提取和图像嵌入。其关键性能包括24.6M参数、7.1 GMACs等。通过`timm`库,用户可以实现高效的图像分类和特征提取。模型使用ResNet Strikes Back的训练方案,提高了准确度和应用多样性。
fastvit_ma36.apple_in1k - Apple开源的高性能混合视觉Transformer图像处理模型
计算机视觉图像分类FastViTGithub开源项目模型Huggingface神经网络机器学习
FastViT是Apple开源的混合视觉Transformer模型,基于结构重参数化技术构建。模型在ImageNet-1k数据集训练,参数量4410万,支持256x256图像输入。主要功能包括图像分类、特征图提取和图像嵌入表示。通过混合架构设计,在保证准确率的基础上优化了计算效率。
deit-tiny-patch16-224 - 高效小型视觉Transformer模型用于图像分类
ImageNet图像处理Github开源项目图像分类HuggingfaceDeiT深度学习模型
DeiT-tiny-patch16-224是一个在ImageNet-1k数据集上训练的高效视觉Transformer模型。该模型仅有5M参数,却在ImageNet top-1分类准确率上达到72.2%。它可处理224x224分辨率的图像输入,输出1000个ImageNet类别的预测结果,适用于各种图像分类任务。
vgg19.tv_in1k - VGG19深度卷积网络在ImageNet数据集上的图像分类与特征提取
图像分类Github开源项目模型Huggingface特征提取深度卷积网络VGGImageNet-1k
针对图像识别任务,VGG19模型在ImageNet-1k数据集上采用原始的torchvision权重训练,支持224x224像素的输入图像。其140M+参数配置使得模型能够处理复杂的图像特征,包括分类、特征提取和嵌入应用,只需适用模型提供的转换配置即可实现高效部署。
resnet101.tv_in1k - 采用ResNet101架构的高效图像分类和特征提取模型
ImageNet图像分类开源项目模型resnet101.tv_in1kHuggingface特征提取深度学习Github
resnet101.tv_in1k是一个基于ResNet101架构的图像分类模型,搭载ReLU激活、单层7x7卷积池化和1x1卷积下采样等特性,经过ImageNet-1k数据集训练,可用于图像特征提取和分类。在深度残差学习的加持下,该模型在特征提取和分类任务中表现突出,适合用于学术研究和商用产品开发。
mit-b2 - 高效语义分割的简单Transformer设计
机器学习Github开源项目SegFormer图像分类TransformerHuggingface语义分割模型
SegFormer b2是一个在ImageNet-1k上预训练的编码器模型,采用分层Transformer结构。该模型专为语义分割任务设计,结合了简单高效的架构和出色的性能。虽然此版本仅包含预训练的编码器部分,但它为图像分类和语义分割的微调提供了坚实基础。SegFormer的创新设计使其在多个计算机视觉任务中展现出强大潜力。
vit_base_patch16_224.orig_in21k - Vision Transformer图像特征提取模型无分类头版本
timm图像分类Huggingface特征提取开源项目模型预训练模型GithubVision Transformer
vit_base_patch16_224.orig_in21k是一个基于Vision Transformer架构的图像特征提取模型,在ImageNet-21k数据集上预训练。模型采用16x16图像块处理,支持224x224输入尺寸,包含8580万参数。移除分类头设计使其专注于特征提取,适合迁移学习和微调。通过timm库可轻松应用于图像分类和特征提取任务,为计算机视觉研究提供有力支持。
swinv2-tiny-patch4-window8-256 - 基于分层特征图的轻量级视觉Transformer模型
深度学习图像分类HuggingfaceSwin Transformer v2开源项目计算机视觉模型GithubImageNet
Swin Transformer V2是一个在ImageNet-1k数据集上预训练的视觉模型,采用分层特征图结构和局部窗口注意力机制,实现线性计算复杂度。模型整合了残差后归一化和余弦注意力等技术,在保持256x256分辨率输入的同时,提供了稳定的图像分类和特征提取能力。
plip - 基于CLIP模型的Python图像处理库 专注零样本分类研究
Github模型数据隐私开源项目CLIP图像分类Huggingface人工智能模型研究
plip是一个基于OpenAI CLIP模型的Python图像处理库,专注于零样本图像分类研究。该工具为AI研究人员提供了探索模型鲁棒性和泛化性的平台。目前仅支持英语环境,主要用于研究目的。使用时需注意在特定分类体系下进行充分的领域测试,不建议直接部署到生产环境。
CLIP-ViT-B-32-roberta-base-laion2B-s12B-b32k - 零样本图像识别与跨模态检索应用
OpenCLIP开源项目模型CLIP ViT-B/32GithubHuggingface模型评估训练数据图像分类
该模型基于OpenCLIP,并利用LAION-5B中的LAION-2B英文子集进行训练,实现了有效的零样本图像分类和跨模态检索。在ImageNet、MSCOCO和Flickr30k测试集上的表现优于基线,适用于图像分类和生成等任务。训练过程中采用32k批次大小处理12B训练样本,并通过VTAB+、COCO和Flickr等数据集进行评估。
swin-base-patch4-window7-224-in22k - 基于shifted windows的分层视觉Transformer图像处理模型
图像识别开源项目模型GithubHuggingface计算机视觉深度学习Swin Transformer图像分类
Swin Transformer是一个在ImageNet-21k数据集上预训练的视觉模型,通过shifted windows机制实现局部特征提取,降低计算复杂度。模型采用分层特征图构建和局部注意力计算方式,适用于图像分类和密集识别任务,计算复杂度与输入图像大小呈线性关系
deit3_base_patch16_224.fb_in1k - ImageNet-1k图像分类与嵌入的DeiT-III解决方案
GithubDeiT-III模型ImageNet-1k开源项目模型比较图像分类HuggingfaceImage Embeddings
DeiT-III是一款经过ImageNet-1k训练的图像分类和嵌入模型,拥有86.6M参数以及17.6 GMACs。该模型可以进行图像特征提取与多任务处理,适用于各种视觉应用。对于图形识别及计算机视觉项目的从业者而言,其为ViT提供了一个新的升级途径。
CLIP-ViT-g-14-laion2B-s12B-b42K - 用于零样本图像分类的先进研究工具
开源项目模型GithubHuggingfaceCLIP ViT-g/14多模态模型零样本学习LAION-5B图像分类
该模型专为研究社区而设计,采用LAION-5B数据集中的英语子集进行训练。它帮助研究人员探索零样本与任意图像分类的可能性,适用于跨学科的研究。该模型仅推荐用于研究目的,不适合用于商业化或未经测试的环境,并强调确保其安全和适当使用。
resnet50d.ra2_in1k - 基于ResNet-D架构的高效图像分类与特征提取模型
Github神经网络模型开源项目图像分类深度学习timmResNetHuggingface
ResNet-D是一款在ImageNet-1k数据集训练的图像分类模型,采用ReLU激活函数和三层卷积结构,包含2560万参数。模型支持224x224尺寸训练输入和288x288测试输入,集成RandAugment增强技术,可实现图像分类、特征提取等计算机视觉任务。
AI-generated_images_detector - 高精度AI生成图像检测模型,适用于图像分类任务
AI-generated_images_detectorHuggingface训练和评估数据Github模型准确率开源项目图像分类
该高精度AI生成图像检测模型专注于图像分类,适用于imagefolder数据集验证。模型训练后达到了0.9736的准确率,能够有效区分生成与真实图像。通过transformers库中的pipeline进行推理,只需将图像传递给模型即可获得分类结果,适用于对图像分类精度要求较高的应用,能够有效提升AI生成内容的识别能力。
vit-base-uppercase-english-characters - 大写英文字符高精度图像分类模型
开源项目模型GithubHuggingface准确率adam优化模型微调vit-base-uppercase-english-characters图像分类
该模型基于vit-base-patch16-224-in21k进行了微调,并在pittawat/uppercase-english-characters数据集上达到了0.9573的准确率。训练过程中采用了学习率为0.0002的Adam优化器,损失率为0.3160。使用Transformers 4.26.1和Pytorch 1.13.0等框架版本,显著提升了在图像分类领域的性能。
MambaVision-T-1K - 提高视觉模型长距离空间依赖的处理能力
特征提取开源项目模型GithubMambaVisionHuggingface计算机视觉变换器图像分类
MambaVision是一个混合视觉模型,将Mamba与Transformer的优点结合,重新设计后的Mamba通过引入自注意力机制有效捕获长距离空间依赖。该模型在Top-1准确率和吞吐量上表现突出,创造了新的性能标准。用户可以通过简单的安装和代码导入来使用其图像分类和特征提取功能,满足多样化的应用需求,同时提供阶段性和平均池化特征输出。
CLIP-ViT-B-32-xlm-roberta-base-laion5B-s13B-b90k - 具备零样本学习与多语言支持的图像模型
LAION-5B多语言性能零样本学习模型Github开源项目图像分类CLIP ViT-B/32Huggingface
该模型基于LAION-5B数据集和OpenCLIP技术,能够进行零样本图像分类和图像-文本检索。通过结合CLIP ViT-B/32和xlm roberta,这一模型在各种图像任务中显示出较高性能。同时,其多语言能力经验证,可提升imagenet1k等多语言数据集上的表现,尤其在意大利语和日语测试中效果显著。依托于高效的OpenCLIP训练,模型在mscooco和flickr30k数据集上有较大性能提升,是图像生成与分类的可靠选择。
dpn131.mx_in1k - DPN双路径神经网络图像分类模型 支持ImageNet预训练和特征提取
神经网络深度学习图像分类Huggingface特征提取DPN131开源项目模型Github
DPN131是基于Dual-Path Networks架构的图像分类模型,在ImageNet-1k数据集上训练。模型包含7930万参数,支持224x224图像输入,提供图像分类、特征图提取和图像嵌入功能。通过timm库可轻松加载使用,适用于多种计算机视觉任务。该模型由MXNet训练并移植到PyTorch,支持批量处理和特征提取。
metaclip-b16-fullcc2.5b - CLIP训练数据解构与MetaCLIP模型应用
图像分类HuggingfaceCommonCrawl开源项目模型Hugging FaceGithubMetaCLIP数据管理
MetaCLIP模型利用25亿个CommonCrawl数据点,在共享嵌入空间中实现图像与文本的链接应用。实现零样本图像分类、文本驱动的图像检索及图像驱动的文本检索。《Demystifying CLIP Data》论文揭示了CLIP数据训练方法,促进多模态应用发展。
siglip-large-patch16-384 - 通过改进的损失函数提升多模态图像和文本的匹配效率
开源项目模型GithubHuggingfaceSigLIP多模态模型零样本学习预训练图像分类
SigLIP模型通过改进的sigmoid损失函数在图像文本配对任务中表现优异,无需成对相似性的全局视图归一化,使批量处理更加灵活高效。适用于零样本图像分类和图像文本检索等任务,展现出优秀的可用性和扩展性。在WebLI数据集上预训练,有效提升多模态任务表现,同时保持在较低复杂性问题中的有效性。了解更多,请访问模型文档。
efficientnet_b2.ra_in1k - EfficientNet B2模型的图像分类能力分析
timmEfficientNetImageNet-1k模型GithubRandAugment开源项目图像分类Huggingface
EfficientNet B2模型在ImageNet-1k数据集上训练,结合RandAugment增强策略和RMSProp优化器,实现卓越的图像分类与特征提取性能。
marqo-fashionSigLIP - 基于SigLIP的时尚图像搜索模型实现多模态检索精准度提升
Github模型开源项目图像分类SigLIP深度学习Huggingface时尚检索产品搜索
Marqo-FashionSigLIP是一个时尚领域多模态嵌入模型,针对服装图像的文本描述、类别、风格等特征进行训练。该模型在检索准确度上较传统fashion-clip提升57%,支持主流深度学习框架,适用于电商图像搜索和商品分类场景。
convnextv2-tiny-1k-224 - 基于全新框架节点,优化卷积网络的性能
Github模型卷积神经网络ImageNet开源项目图像分类FCMAEHuggingfaceConvNeXt V2
ConvNeXt V2引入了全新的全卷积掩码自动编码器框架及全局响应归一化层,提升卷积网络在多种识别基准的表现,经过ImageNet-1K数据集微调,适合高精度图像分类任务及视觉识别应用。