#图像分类
FastAI.jl - Julia深度学习流程的高效简化工具
深度学习JuliaFastAI.jl计算机视觉图像分类Github开源项目
FastAI.jl是一个Julia深度学习库,旨在简化从数据处理到模型训练的全过程。它提供可重用组件,支持计算机视觉和表格数据任务,同时保持灵活定制性。该库整合了Julia生态系统中的多个包,通过高级工作流程和API,提高了深度学习项目的效率。FastAI.jl适用于各类深度学习应用,为研究人员和开发者提供了便捷的工具。
opennsfw2 - Keras实现的开源NSFW图像视频检测工具
OpenNSFW 2NSFW检测图像分类Keras预训练模型Github开源项目
opennsfw2是一个基于Keras的开源图像分类模型,用于检测不适宜工作场合(NSFW)的内容。该项目提供简单API,可对图片和视频进行NSFW概率预测。支持TensorFlow和JAX后端,兼容Python 3.9-3.11。项目功能包括图像预处理、模型加载和批量推理,是一个完整的NSFW内容检测工具。
ArtGAN - 深度学习驱动的艺术品生成与分类开源项目
ArtGAN深度学习艺术生成图像分类数据集Github开源项目
ArtGAN是一个融合深度学习与艺术的开源项目,专注于艺术作品的生成和分类。项目包含WikiArt数据集、改进的ArtGAN模型用于条件合成图像和艺术品,以及深度卷积网络用于绘画分类。通过生成高质量肖像画,ArtGAN展示了AI在艺术领域的应用潜力。该项目不仅为学术研究提供了重要资源,还为艺术创作和鉴赏开拓了新视角。项目由三个主要部分组成:精炼的WikiArt数据集、用于条件合成图像的改进ArtGAN模型,以及用于绘画分类的深度卷积网络。这些组件共同构成了一个全面的艺术智能研究平台,为探索AI与艺术的交叉领域提供了有力支持。
MogaNet - 多阶门控聚合网络在计算机视觉领域的创新应用
MogaNet图像分类目标检测语义分割人体姿态估计视频预测Github开源项目
MogaNet是一种创新的卷积神经网络架构,采用多阶门控聚合机制实现高效的上下文信息挖掘。这一设计在保持较低计算复杂度的同时,显著提升了模型性能。MogaNet在图像分类、目标检测、语义分割等多项计算机视觉任务中展现出优异的可扩展性和效率,达到了与当前最先进模型相当的水平。该项目开源了PyTorch实现代码和预训练模型,便于研究者进行进一步探索和应用。
RevCol - 多任务计算机视觉的新型架构
RevCol计算机视觉图像分类目标检测语义分割Github开源项目
RevCol是一种新型神经网络架构,采用多个子网络(列)通过多层可逆连接组成。作为基础模型骨干,RevCol适用于图像分类、目标检测和语义分割等计算机视觉任务。该架构在ImageNet等基准测试中表现优异,项目提供了训练和评估代码,以及多个数据集上的预训练模型权重,方便研究人员进行进一步探索。
CV - 全面的计算机视觉深度学习模型集合
计算机视觉深度学习图像分类目标检测语义分割Github开源项目
这个项目收集了多个计算机视觉领域的深度学习模型,包括图像分类、目标检测、语义分割和生成模型。项目为每个模型提供论文链接、详细解析和代码实现,涵盖从AlexNet到YOLO系列等经典算法。这是一个面向研究人员和开发者的综合性学习资源,有助于理解和应用先进的计算机视觉技术。
NsfwSpy.NET - 开源AI图像和视频内容分类器
NsfwSpy图像分类内容审核机器学习.NETGithub开源项目
NsfwSpy.NET是基于.NET Core 2.0及以上版本的开源图像和视频内容分类器,支持多平台使用。该工具采用ML.NET模型,通过大规模图像训练,能够识别色情、性感、动漫色情和中性内容。NsfwSpy.NET支持多种格式,提供GPU加速,可用于用户生成内容的审核。
CrossFormer - 融合跨尺度注意力的高效视觉Transformer
CrossFormer++视觉Transformer跨尺度注意力图像分类目标检测Github开源项目
CrossFormer++是一种创新的视觉Transformer模型,通过跨尺度注意力机制解决了不同尺度对象特征间建立关联的问题。该模型引入跨尺度嵌入层和长短距离注意力等设计,并采用渐进式分组策略和激活冷却层来平衡性能与计算效率。在图像分类、目标检测和语义分割等视觉任务中表现优异,尤其在密集预测任务中效果显著。CrossFormer++为计算机视觉领域提供了一种灵活高效的新型架构。
QFormer - 四边形注意力机制提升视觉Transformer性能
Vision Transformer注意力机制计算机视觉图像分类目标检测Github开源项目
QFormer是一种创新的视觉Transformer模型,采用四边形注意力机制替代传统窗口注意力。该模型通过可学习的四边形回归模块,将默认窗口转换为目标四边形进行计算,从而更好地建模不同形状和方向的目标。在图像分类、目标检测、语义分割和人体姿态估计等多项视觉任务中,QFormer在保持低计算成本的同时,性能显著优于现有的视觉Transformer模型。
AbSViT - 创新视觉注意力模型实现自适应分析合成
AbSViT视觉注意力图像分类语义分割计算机视觉Github开源项目
AbSViT是一个创新视觉注意力模型,采用分析合成方法实现自适应的自上而下注意力机制。该模型在ImageNet分类和语义分割任务中表现优异,尤其在鲁棒性测试中展现出色性能。AbSViT能够适应单目标和多目标场景,并根据不同问题动态调整注意力。这一模型为计算机视觉领域开辟了新的研究方向,有望在多种视觉任务中发挥重要作用。
SOFT - 无需softmax的线性复杂度Transformer模型
Transformer自注意力机制线性复杂度图像分类目标检测Github开源项目
SOFT是一种新型Transformer模型,采用无需softmax的归一化自注意力机制,实现了线性复杂度和更强的泛化能力。该模型在图像分类、目标检测和语义分割等计算机视觉任务中表现优异。项目提供多种规模的预训练模型,适用于不同应用场景。开源代码包含完整的训练和评估流程,并附有详细说明,便于研究人员进行深入研究和应用开发。
SOLC - 基于深度学习的SAR和光学遥感影像土地利用分类框架
遥感图像分类深度学习SARPyTorchGithub开源项目
SOLC是一个开源的遥感图像语义分割框架,专注于SAR和光学影像的土地利用分类。该项目基于PyTorch实现了多种深度学习模型,包括DeepLabv3+、UNet和SegNet等。其中SOLC V7模型采用了双流DeepLabv3+架构,并融合SAGate和ERFB模块,在WHU-OPT-SAR数据集上实现了最佳性能。项目提供了完整的源代码、预训练权重和使用说明,为遥感图像分析研究提供了实用工具。
Awesome-Transformer-in-Medical-Imaging - Transformer在医学图像分析中的应用进展综述
Vision Transformer医学图像分析图像分割图像分类深度学习Github开源项目
本项目整理了Transformer模型在医学图像分析中的最新研究进展。内容涵盖图像分类、分割、重建、合成等多个领域,系统地归纳和分类了相关论文。项目提供了医学图像分析中Transformer应用的分类体系,详细的参考文献,以及开源代码库链接,为研究人员提供了全面的学习和实践资源。
vit_base_patch32_clip_384.openai_ft_in12k_in1k - 采用ViT技术的视觉Transformer模型
timm图像分类Huggingface开源项目模型预训练GithubVision TransformerFine-tuning
这款视觉Transformer图像分类模型由OpenAI基于WIT-400M数据集使用CLIP技术预训练,并经过ImageNet-12k和ImageNet-1k数据集微调。作为一种强大的图像分类和嵌入模型,其参数量达88.3M,计算量为12.7 GMACs,设计用于384x384图像。支持通过`timm`库接口调用,满足多种视觉任务需求,在图像识别和分析领域表现出稳定性能。
resnetrs152.tf_in1k - ResNetRS-B模型提供的图像信息处理新选择
ResNetRS-B开源项目图像分类timmTensorflowHuggingfaceGithub模型ImageNet
ResNetRS-B是一款图像分类模型,具备ReLU激活、单层7x7卷积池化和1x1卷积下采样功能。该模型由论文作者在ImageNet-1k上使用Tensorflow训练,拥有86.6M的参数量,支持320x320图像测试。其多功能性使其适用于图像分类、特征提取和图像嵌入任务,通过timm库可便捷地在Python中实现应用。
resnest14d.gluon_in1k - ResNeSt14d:基于分割注意力机制的深度学习模型
timm特征提取ImageNet-1k模型Github开源项目图像分类ResNeStHuggingface
ResNeSt14d是一款基于ResNet的分割注意力图像分类模型,由研究团队在ImageNet-1k数据集上训练。此模型拥有10.6M的参数和2.8 GMACs,支持224x224的图像尺寸。提供多种功能,包括图像分类、特征提取和图像嵌入。通过timm库实现预训练模型调用,支持快速有效的图像分析和计算机视觉任务。
vit_small_patch16_384.augreg_in21k_ft_in1k - 增强的视觉转换器模型及其在图像分类中的应用
ImageNet图像分类开源项目Vision TransformerPyTorch模型Huggingface数据增强Github
ViT图像分类模型结合增强与正则化技术,基于ImageNet-21k训练后在ImageNet-1k微调。模型通过JAX进行训练并移植至PyTorch,拥有22.2M参数和384x384图像输入,展示了12.4 GMACs的高效性。适用于图像分类与特征提取,在视觉识别和嵌入生成中表现出色。
convnext_small.fb_in22k - 支持多任务图像处理的预训练模型
ImageNetGithub开源项目特征提取图像分类ConvNeXttimmHuggingface模型
ConvNeXt是一个经过ImageNet-22k预训练的图像分类模型,具备66.3M参数和8.7 GMACs。本文介绍其关键特性及在图像特征提取中的应用,旨在帮助专业用户理解和有效利用该模型进行视觉任务。
resnet50.tv_in1k - ResNet-B模型实现高效图像识别与分析
图像分类Huggingface特征提取开源项目模型ResNet-BGithubImageNetTimm
ResNet-B模型是一款专为图像分类和特征提取而设计的工具,其特点包括ReLU激活和7x7卷积,适合224x224像素图像。在ImageNet-1k数据集上训练,具备优异的参数和计算性能。通过timm库,用户可以轻松将其应用于图像分类、特征提取和图像嵌入等多种场景。
clip-vit-base-patch32 - 使用Xenova/clip-vit-base-patch32实现Transformers.js的零样本图像分类
openai/clip-vit-base-patch32Transformers.jsJavaScript库模型GithubONNX开源项目图像分类Huggingface
在Transformers.js中实现ONNX权重兼容性,支持进行零样本图像分类,使用模型Xenova/clip-vit-base-patch32。通过简单的npm安装Transformers.js库,利用pipeline API实现图像和标签的高效匹配。此项目旨在为WebML的未来发展提供一个过渡方案,建议将模型转换为ONNX格式以便于网络使用。
bit-50 - 大规模增强视觉学习的预训练模型
开源项目模型GithubImageNetBig TransferHuggingface迁移学习ResNet图像分类
Big Transfer (BiT) 是一种通过扩展预训练提升视觉任务中深度神经网络表现的方法,优化样本效率和超参数调整。该方法在超过20个数据集上具备优异的迁移能力,并可适应不同数据规模的需求。在ILSVRC-2012数据集上,BiT达到了87.5%的top-1准确率,在CIFAR-10数据集上取得99.4%的准确率,并在19项视觉任务基准测试中获得76.3%的成绩。这使得BiT在图像分类任务中得到广泛应用。
tf_efficientnet_b0.in1k - 基于EfficientNet架构的tf_efficientnet_b0.in1k模型解析
图像分类ImageNet-1kHuggingfacetimmGithub开源项目模型特征提取EfficientNet
tf_efficientnet_b0.in1k是一个基于EfficientNet架构的图像分类模型,在ImageNet-1k数据集上使用Tensorflow训练,并由Ross Wightman移植到PyTorch。该模型具有5.3M参数和0.4 GMACs,支持细节丰富的224x224像素图像应用。其功能包括图像分类、特征映射提取和图像嵌入,非常适合在timm库中进行各种深度学习研究和应用,提供一种高效的图像处理方案。
dinov2-small-imagenet1k-1-layer - 视觉特征学习的Transformer模型
DINOv2特征提取开源项目模型GithubHuggingface自监督学习图像分类Vision Transformer
DINOv2方法无监督预训练的Vision Transformer,适用于影像特征学习增强场景。此小尺寸模型能在ImageNet-1k数据集上执行分类任务,通过提取特征来辅助下游任务。尽管模型未包含微调头,但可附加线性层进行标准分类,适合高精度视觉特征需求的应用。
vit_base_patch32_224.augreg_in21k_ft_in1k - 基于ViT架构的图像分类模型,兼容PyTorch
timmImageNet模型Github开源项目图像分类Vision TransformersViTHuggingface
ViT图像分类模型在ImageNet-21k上训练并在ImageNet-1k上微调,采用数据增强和正则化,适用于图像识别和特征提取。模型包含88.2M参数,通过PyTorch实现,支持多种应用场景。
vit-tiny-patch16-224 - 轻量级ViT模型实现高效图像分类
Huggingface图像分类模型权重转换ImageNetVision TransformerGithub开源项目Hugging Face
vit-tiny-patch16-224是一个轻量级视觉transformer模型,专注于图像分类任务。这个模型采用16x16的patch大小和224x224的输入分辨率,在保持分类准确性的同时大幅降低了计算资源需求。其小型结构使其特别适合在资源受限环境中使用或需要快速推理的场景。值得注意的是,该模型是基于Google的ViT架构,由第三方研究者使用timm仓库的权重进行转换和发布。
vit_giant_patch14_dinov2.lvd142m - 基于Vision Transformer的无监督视觉特征提取模型
自监督学习图像分类DINOv2Huggingface开源项目模型GithubVision Transformer图像特征提取
该项目介绍了使用DINOv2方法的Vision Transformer(ViT)模型,通过无监督学习在LVD-142M数据集上进行预训练。这一模型适用于图像分类和嵌入,帮助提取稳健的视觉特征以及实现高效的图像识别。ViT模型的参数量为1136.5M和1784.2 GMACs,显现出其出色的性能和灵活性。用户可以在GitHub查看和下载该模型的代码和更多资源。
levit_256.fb_dist_in1k - LeViT卷积图像分类模型具备快速推理能力
图像分类Github卷积神经网络开源项目模型比较模型HuggingfaceImageNet-1kLeViT
LeViT图像分类模型利用卷积操作并在ImageNet-1k数据集上预训练,符合快速推理需求。模型参数量为18.9M,适用于不同图像分类任务。通过timm库进行部署,可实现特征提取和多种嵌入应用。
vit_base_patch8_224.dino - 将自监督DINO方法应用于视觉变换器以增强图像特征提取能力
Github模型ImageNet开源项目图像分类自监督学习Vision TransformerHuggingface特征提取
该项目利用Vision Transformer (ViT) 和自监督DINO方法进行图像特征提取,支持图像分类和嵌入应用。模型在ImageNet-1k数据集上进行了预训练,具有85.8M参数,能够处理224 x 224分辨率的图像。由于其参数利用效率高,该模型在大规模数据集上表现良好,适合精确特征提取的视觉任务,增强图像识别及分析能力。通过`timm`库可轻松实现模型调用和图像处理,满足多种计算机视觉应用需求。
vit_large_patch16_384.augreg_in21k_ft_in1k - 使用ImageNet数据集进行图像分类的Vision Transformer模型
Vision Transformer特征提取模型比较模型Github开源项目图像分类预训练模型Huggingface
该Vision Transformer模型专用于图像分类,最初在ImageNet-21k上进行扩展和正则化训练,并在ImageNet-1k上进行微调。由原作者使用JAX开发,后移植至PyTorch框架。模型的显著特点包括支持384x384图像尺寸,参数量达到304.7M,提升图像识别的准确性。该模型简化了图像分类和图像嵌入生成的过程。高效的数据增强和正则化策略进一步提升了模型性能,是计算机视觉研究与应用的有效工具。
clip-japanese-base - 日语CLIP模型,支持图像和文本的零样本分类与检索
图像分类视觉任务CLIP文本检索BERTHuggingfaceGithub开源项目模型
该日语CLIP模型由LY Corporation开发,通过大约10亿对图文数据进行训练,适用于图像和文本的零样本分类与检索。该模型采用Eva02-B作为图像编码器,并使用12层BERT作为文本编码器。模型在图像分类中的准确率达到0.89,检索召回率为0.30。在评估中,使用了STAIR Captions和ImageNet-1K等数据集,表现优秀。模型已开源,遵循Apache 2.0协议。
mobilevitv2_075.cvnets_in1k - MobileViT-v2:高效的移动视觉变换器图像分类解决方案
MobileViT-v2图像分类ImageNet-1kSeparable Self-attentionHuggingfaceGithub开源项目模型特征提取
MobileViT-v2是一个高效的移动视觉变换器模型,利用分离自注意力机制优化了图像分类与特征提取。经过ImageNet-1k数据集训练,该模型适配多种计算机视觉任务。模型规格包括2.9M参数和1.1 GMAC,支持256x256图像输入。借助timm库,模型可轻松集成至移动设备的视觉处理应用中。
efficientnetv2_rw_m.agc_in1k - EfficientNetV2模型:图像分类与多功能特征提取
timm模型使用图像分类EfficientNet-v2Huggingface开源项目模型GithubImageNet-1k
EfficientNetV2是一个在timm库中实现的高效图像分类模型。通过使用以ResNet Strikes Back为基础的训练策略和SGD优化器(带Nesterov动量),结合自适应梯度剪裁,模型在ImageNet-1k数据集上进行训练。这一架构轻量且强大,支持包括图像分类、特征提取和图像嵌入的多种图像处理任务。
cat-vs-dog-resnet-50 - 基于微调的ResNet-50实现高精度猫狗图像分类
图像分类Huggingface猫狗分类开源项目精度模型GithubAdam优化microsoft/resnet-50
此项目采用微调版的microsoft/resnet-50模型,以其在cats_vs_dogs数据集上达到的0.9654高准确率而表现出色。适合高精度图像识别场景,模型训练过程使用了线性学习率调度器和Adam优化器,确保了结果的稳定与可靠。
convnextv2_nano.fcmae_ft_in1k - 基于FCMAE的ConvNeXt-V2高效图像分类与特征提取模型
Github开源项目特征提取图像分类Huggingface深度学习ConvNeXt V2ImageNet-1k模型
ConvNeXt-V2模型通过全卷积掩码自动编码器框架进行预训练,并在ImageNet-1k数据集上进行微调。该模型具备15.6百万参数,支持多种图像尺寸处理,训练尺寸为224x224,测试尺寸为288x288。借助timm库,它可执行图像分类、特征提取和图像嵌入,适用于多种应用场景。
dino-vitb8 - 无需微调,实现高效图像分类的自监督视觉转换器
Github开源项目图像分类Vision Transformer自监督学习Huggingface预训练模型ImageNet-1k模型
Vision Transformer (ViT)模型通过DINO方法进行的自监督训练在ImageNet-1k数据集上预训练,注重提升图像特征提取,无需微调即可应用于图像分类,兼顾多种下游任务。可根据任务需求选择合适的微调版本。
deep-learning-for-image-processing - 涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练的介绍深度学习在图像处理中的应用的教程
深度学习图像处理PytorchTensorflow图像分类Github开源项目
本教程介绍深度学习在图像处理中的应用,涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练。课程内容包括图像分类、目标检测、语义分割、实例分割和关键点检测,适合研究生和深度学习爱好者。所有PPT和源码均可下载,助力学习和研究。
相关文章