#图像分类

FastAI.jl - Julia深度学习流程的高效简化工具
深度学习JuliaFastAI.jl计算机视觉图像分类Github开源项目
FastAI.jl是一个Julia深度学习库,旨在简化从数据处理到模型训练的全过程。它提供可重用组件,支持计算机视觉和表格数据任务,同时保持灵活定制性。该库整合了Julia生态系统中的多个包,通过高级工作流程和API,提高了深度学习项目的效率。FastAI.jl适用于各类深度学习应用,为研究人员和开发者提供了便捷的工具。
opennsfw2 - Keras实现的开源NSFW图像视频检测工具
OpenNSFW 2NSFW检测图像分类Keras预训练模型Github开源项目
opennsfw2是一个基于Keras的开源图像分类模型,用于检测不适宜工作场合(NSFW)的内容。该项目提供简单API,可对图片和视频进行NSFW概率预测。支持TensorFlow和JAX后端,兼容Python 3.9-3.11。项目功能包括图像预处理、模型加载和批量推理,是一个完整的NSFW内容检测工具。
ArtGAN - 深度学习驱动的艺术品生成与分类开源项目
ArtGAN深度学习艺术生成图像分类数据集Github开源项目
ArtGAN是一个融合深度学习与艺术的开源项目,专注于艺术作品的生成和分类。项目包含WikiArt数据集、改进的ArtGAN模型用于条件合成图像和艺术品,以及深度卷积网络用于绘画分类。通过生成高质量肖像画,ArtGAN展示了AI在艺术领域的应用潜力。该项目不仅为学术研究提供了重要资源,还为艺术创作和鉴赏开拓了新视角。项目由三个主要部分组成:精炼的WikiArt数据集、用于条件合成图像的改进ArtGAN模型,以及用于绘画分类的深度卷积网络。这些组件共同构成了一个全面的艺术智能研究平台,为探索AI与艺术的交叉领域提供了有力支持。
MogaNet - 多阶门控聚合网络在计算机视觉领域的创新应用
MogaNet图像分类目标检测语义分割人体姿态估计视频预测Github开源项目
MogaNet是一种创新的卷积神经网络架构,采用多阶门控聚合机制实现高效的上下文信息挖掘。这一设计在保持较低计算复杂度的同时,显著提升了模型性能。MogaNet在图像分类、目标检测、语义分割等多项计算机视觉任务中展现出优异的可扩展性和效率,达到了与当前最先进模型相当的水平。该项目开源了PyTorch实现代码和预训练模型,便于研究者进行进一步探索和应用。
RevCol - 多任务计算机视觉的新型架构
RevCol计算机视觉图像分类目标检测语义分割Github开源项目
RevCol是一种新型神经网络架构,采用多个子网络(列)通过多层可逆连接组成。作为基础模型骨干,RevCol适用于图像分类、目标检测和语义分割等计算机视觉任务。该架构在ImageNet等基准测试中表现优异,项目提供了训练和评估代码,以及多个数据集上的预训练模型权重,方便研究人员进行进一步探索。
CV - 全面的计算机视觉深度学习模型集合
计算机视觉深度学习图像分类目标检测语义分割Github开源项目
这个项目收集了多个计算机视觉领域的深度学习模型,包括图像分类、目标检测、语义分割和生成模型。项目为每个模型提供论文链接、详细解析和代码实现,涵盖从AlexNet到YOLO系列等经典算法。这是一个面向研究人员和开发者的综合性学习资源,有助于理解和应用先进的计算机视觉技术。
NsfwSpy.NET - 开源AI图像和视频内容分类器
NsfwSpy图像分类内容审核机器学习.NETGithub开源项目
NsfwSpy.NET是基于.NET Core 2.0及以上版本的开源图像和视频内容分类器,支持多平台使用。该工具采用ML.NET模型,通过大规模图像训练,能够识别色情、性感、动漫色情和中性内容。NsfwSpy.NET支持多种格式,提供GPU加速,可用于用户生成内容的审核。
CrossFormer - 融合跨尺度注意力的高效视觉Transformer
CrossFormer++视觉Transformer跨尺度注意力图像分类目标检测Github开源项目
CrossFormer++是一种创新的视觉Transformer模型,通过跨尺度注意力机制解决了不同尺度对象特征间建立关联的问题。该模型引入跨尺度嵌入层和长短距离注意力等设计,并采用渐进式分组策略和激活冷却层来平衡性能与计算效率。在图像分类、目标检测和语义分割等视觉任务中表现优异,尤其在密集预测任务中效果显著。CrossFormer++为计算机视觉领域提供了一种灵活高效的新型架构。
QFormer - 四边形注意力机制提升视觉Transformer性能
Vision Transformer注意力机制计算机视觉图像分类目标检测Github开源项目
QFormer是一种创新的视觉Transformer模型,采用四边形注意力机制替代传统窗口注意力。该模型通过可学习的四边形回归模块,将默认窗口转换为目标四边形进行计算,从而更好地建模不同形状和方向的目标。在图像分类、目标检测、语义分割和人体姿态估计等多项视觉任务中,QFormer在保持低计算成本的同时,性能显著优于现有的视觉Transformer模型。
AbSViT - 创新视觉注意力模型实现自适应分析合成
AbSViT视觉注意力图像分类语义分割计算机视觉Github开源项目
AbSViT是一个创新视觉注意力模型,采用分析合成方法实现自适应的自上而下注意力机制。该模型在ImageNet分类和语义分割任务中表现优异,尤其在鲁棒性测试中展现出色性能。AbSViT能够适应单目标和多目标场景,并根据不同问题动态调整注意力。这一模型为计算机视觉领域开辟了新的研究方向,有望在多种视觉任务中发挥重要作用。
SOFT - 无需softmax的线性复杂度Transformer模型
Transformer自注意力机制线性复杂度图像分类目标检测Github开源项目
SOFT是一种新型Transformer模型,采用无需softmax的归一化自注意力机制,实现了线性复杂度和更强的泛化能力。该模型在图像分类、目标检测和语义分割等计算机视觉任务中表现优异。项目提供多种规模的预训练模型,适用于不同应用场景。开源代码包含完整的训练和评估流程,并附有详细说明,便于研究人员进行深入研究和应用开发。
SOLC - 基于深度学习的SAR和光学遥感影像土地利用分类框架
遥感图像分类深度学习SARPyTorchGithub开源项目
SOLC是一个开源的遥感图像语义分割框架,专注于SAR和光学影像的土地利用分类。该项目基于PyTorch实现了多种深度学习模型,包括DeepLabv3+、UNet和SegNet等。其中SOLC V7模型采用了双流DeepLabv3+架构,并融合SAGate和ERFB模块,在WHU-OPT-SAR数据集上实现了最佳性能。项目提供了完整的源代码、预训练权重和使用说明,为遥感图像分析研究提供了实用工具。
Awesome-Transformer-in-Medical-Imaging - Transformer在医学图像分析中的应用进展综述
Vision Transformer医学图像分析图像分割图像分类深度学习Github开源项目
本项目整理了Transformer模型在医学图像分析中的最新研究进展。内容涵盖图像分类、分割、重建、合成等多个领域,系统地归纳和分类了相关论文。项目提供了医学图像分析中Transformer应用的分类体系,详细的参考文献,以及开源代码库链接,为研究人员提供了全面的学习和实践资源。
vit_base_patch32_clip_384.openai_ft_in12k_in1k - 采用ViT技术的视觉Transformer模型
timm图像分类Huggingface开源项目模型预训练GithubVision TransformerFine-tuning
这款视觉Transformer图像分类模型由OpenAI基于WIT-400M数据集使用CLIP技术预训练,并经过ImageNet-12k和ImageNet-1k数据集微调。作为一种强大的图像分类和嵌入模型,其参数量达88.3M,计算量为12.7 GMACs,设计用于384x384图像。支持通过`timm`库接口调用,满足多种视觉任务需求,在图像识别和分析领域表现出稳定性能。
resnetrs152.tf_in1k - ResNetRS-B模型提供的图像信息处理新选择
ResNetRS-B开源项目图像分类timmTensorflowHuggingfaceGithub模型ImageNet
ResNetRS-B是一款图像分类模型,具备ReLU激活、单层7x7卷积池化和1x1卷积下采样功能。该模型由论文作者在ImageNet-1k上使用Tensorflow训练,拥有86.6M的参数量,支持320x320图像测试。其多功能性使其适用于图像分类、特征提取和图像嵌入任务,通过timm库可便捷地在Python中实现应用。
resnest14d.gluon_in1k - ResNeSt14d:基于分割注意力机制的深度学习模型
timm特征提取ImageNet-1k模型Github开源项目图像分类ResNeStHuggingface
ResNeSt14d是一款基于ResNet的分割注意力图像分类模型,由研究团队在ImageNet-1k数据集上训练。此模型拥有10.6M的参数和2.8 GMACs,支持224x224的图像尺寸。提供多种功能,包括图像分类、特征提取和图像嵌入。通过timm库实现预训练模型调用,支持快速有效的图像分析和计算机视觉任务。
vit_small_patch16_384.augreg_in21k_ft_in1k - 增强的视觉转换器模型及其在图像分类中的应用
ImageNet图像分类开源项目Vision TransformerPyTorch模型Huggingface数据增强Github
ViT图像分类模型结合增强与正则化技术,基于ImageNet-21k训练后在ImageNet-1k微调。模型通过JAX进行训练并移植至PyTorch,拥有22.2M参数和384x384图像输入,展示了12.4 GMACs的高效性。适用于图像分类与特征提取,在视觉识别和嵌入生成中表现出色。
convnext_small.fb_in22k - 支持多任务图像处理的预训练模型
ImageNetGithub开源项目特征提取图像分类ConvNeXttimmHuggingface模型
ConvNeXt是一个经过ImageNet-22k预训练的图像分类模型,具备66.3M参数和8.7 GMACs。本文介绍其关键特性及在图像特征提取中的应用,旨在帮助专业用户理解和有效利用该模型进行视觉任务。
resnet50.tv_in1k - ResNet-B模型实现高效图像识别与分析
图像分类Huggingface特征提取开源项目模型ResNet-BGithubImageNetTimm
ResNet-B模型是一款专为图像分类和特征提取而设计的工具,其特点包括ReLU激活和7x7卷积,适合224x224像素图像。在ImageNet-1k数据集上训练,具备优异的参数和计算性能。通过timm库,用户可以轻松将其应用于图像分类、特征提取和图像嵌入等多种场景。
clip-vit-base-patch32 - 使用Xenova/clip-vit-base-patch32实现Transformers.js的零样本图像分类
openai/clip-vit-base-patch32Transformers.jsJavaScript库模型GithubONNX开源项目图像分类Huggingface
在Transformers.js中实现ONNX权重兼容性,支持进行零样本图像分类,使用模型Xenova/clip-vit-base-patch32。通过简单的npm安装Transformers.js库,利用pipeline API实现图像和标签的高效匹配。此项目旨在为WebML的未来发展提供一个过渡方案,建议将模型转换为ONNX格式以便于网络使用。
bit-50 - 大规模增强视觉学习的预训练模型
开源项目模型GithubImageNetBig TransferHuggingface迁移学习ResNet图像分类
Big Transfer (BiT) 是一种通过扩展预训练提升视觉任务中深度神经网络表现的方法,优化样本效率和超参数调整。该方法在超过20个数据集上具备优异的迁移能力,并可适应不同数据规模的需求。在ILSVRC-2012数据集上,BiT达到了87.5%的top-1准确率,在CIFAR-10数据集上取得99.4%的准确率,并在19项视觉任务基准测试中获得76.3%的成绩。这使得BiT在图像分类任务中得到广泛应用。
tf_efficientnet_b0.in1k - 基于EfficientNet架构的tf_efficientnet_b0.in1k模型解析
图像分类ImageNet-1kHuggingfacetimmGithub开源项目模型特征提取EfficientNet
tf_efficientnet_b0.in1k是一个基于EfficientNet架构的图像分类模型,在ImageNet-1k数据集上使用Tensorflow训练,并由Ross Wightman移植到PyTorch。该模型具有5.3M参数和0.4 GMACs,支持细节丰富的224x224像素图像应用。其功能包括图像分类、特征映射提取和图像嵌入,非常适合在timm库中进行各种深度学习研究和应用,提供一种高效的图像处理方案。
dinov2-small-imagenet1k-1-layer - 视觉特征学习的Transformer模型
DINOv2特征提取开源项目模型GithubHuggingface自监督学习图像分类Vision Transformer
DINOv2方法无监督预训练的Vision Transformer,适用于影像特征学习增强场景。此小尺寸模型能在ImageNet-1k数据集上执行分类任务,通过提取特征来辅助下游任务。尽管模型未包含微调头,但可附加线性层进行标准分类,适合高精度视觉特征需求的应用。
resnet50.a1_in1k - 基于ResNet-B架构的多功能图像分类模型
特征提取人工智能GithubHuggingface模型开源项目图像分类resnet50深度学习
resnet50.a1_in1k是基于ResNet-B架构的图像分类模型,在ImageNet-1k数据集上训练。模型采用ReLU激活函数、7x7卷积层和1x1卷积shortcut,使用LAMB优化器和BCE损失函数。它拥有2560万参数,可用于图像分类、特征提取和图像嵌入等任务。模型支持灵活的输入尺寸,在ImageNet验证集上实现了82.03%的Top-1准确率。
clip-vit-large-patch14 - OpenAI CLIP模型实现零样本图像分类和跨模态匹配
人工智能计算机视觉GithubHuggingface模型开源项目CLIP图像分类零样本学习
CLIP是OpenAI开发的视觉语言模型,结合ViT-L/14和Transformer架构。通过对比学习,CLIP能够实现零样本图像分类和跨模态匹配。虽然在多项计算机视觉任务中表现优异,但在细粒度分类等方面仍有局限。该模型主要供研究人员探索视觉模型的鲁棒性和泛化能力,不适用于商业部署。CLIP的数据来源广泛,但可能存在偏见,使用时需谨慎评估。
clip-vit-base-patch32 - OpenAI CLIP模型实现零样本图像分类的视觉语言预训练
零样本学习OpenAI图像分类CLIP开源项目计算机视觉GithubHuggingface模型
CLIP是OpenAI开发的视觉语言预训练模型,使用ViT-B/32和Transformer架构分别作为图像和文本编码器。通过对比学习训练,CLIP能实现零样本图像分类等任务,在多项计算机视觉基准测试中表现优异。尽管在细粒度分类和物体计数方面存在局限,CLIP为研究人员提供了探索模型鲁棒性和泛化能力的重要工具。
clip-vit-base-patch16 - OpenAI开发的CLIP模型实现零样本图像分类和跨模态理解
人工智能计算机视觉GithubHuggingface模型开源项目CLIP图像分类零样本学习
CLIP是OpenAI开发的视觉语言模型,结合ViT-B/16和masked self-attention Transformer架构。通过对比学习,实现零样本图像分类和跨模态理解。在多项计算机视觉基准测试中表现优异,但在细粒度分类和对象计数方面存在局限。该模型主要用于研究计算机视觉任务的鲁棒性和泛化能力,不适用于商业部署。
resnet-50 - ResNet v1.5模型及其应用于图像识别
ImageNet卷积神经网络模型图像分类GithubResNet-50残差学习Huggingface开源项目
ResNet v1.5模型采用残差学习和跳跃连接技术,可以训练更深的网络,提升图像识别精度。该版本在3x3卷积中进行下采样,与v1版相比略降性能但提升准确率。在ImageNet-1k数据集上预训练后,适合用于图像分类任务,并可通过Hugging Face平台进行微调。
CLIP-ViT-B-16-laion2B-s34B-b88K - 基于LAION-2B数据集训练的CLIP零样本图像分类模型
CLIP模型多模态模型图像分类零样本学习GithubHuggingface开源项目LAION-2B
CLIP-ViT-B-16-laion2B-s34B-b88K是基于LAION-2B英文数据集训练的CLIP ViT-B/16模型,在ImageNet-1k上达到70.2%的零样本Top-1准确率。该模型适用于零样本图像分类、图像文本检索等任务,也可用于图像分类微调、线性探测分类和图像生成引导等下游任务。本模型主要面向研究用途,不适合直接应用于商业场景。
vit_base_patch32_224.augreg_in21k_ft_in1k - 基于ViT架构的图像分类模型,兼容PyTorch
timmImageNet模型Github开源项目图像分类Vision TransformersViTHuggingface
ViT图像分类模型在ImageNet-21k上训练并在ImageNet-1k上微调,采用数据增强和正则化,适用于图像识别和特征提取。模型包含88.2M参数,通过PyTorch实现,支持多种应用场景。
siglip-so400m-patch14-384 - SigLIP模型应用sigmoid损失函数提升多模态处理能力
模型WebLI数据集零样本学习开源项目多模态模型Huggingface图像分类SigLIPGithub
SigLIP模型基于WebLi数据集在384x384分辨率下预训练,采用SoViT-400m架构。通过sigmoid损失函数优化CLIP模型,在零样本图像分类和图像文本检索任务中表现优异。该模型可处理更大批量,同时在小批量下也有出色表现。经16个TPU-v4芯片3天训练,为多模态任务奠定了坚实基础。
nsfw_image_detection - 基于ViT的NSFW图像检测模型
模型图像分类GithubHugging FaceVision Transformer内容审核NSFWHuggingface开源项目
这是一个基于Vision Transformer (ViT)的NSFW图像分类模型。经过80,000张多样化图像训练,模型能有效区分正常和不适当内容。采用224x224像素分辨率,16批量大小和5e-5学习率,评估准确率达98%。该模型主要用于内容安全和审核,但仅限于NSFW图像分类。
beit-base-patch16-224-pt22k-ft22k - BEiT 基于Transformer的自监督图像分类模型
模型BEiT开源项目自监督学习图像分类HuggingfaceImageNet视觉转换器Github
BEiT是一种基于Transformer的图像分类模型,在ImageNet-22k数据集上进行自监督预训练和微调。它采用掩码预测目标和相对位置编码,有效学习图像表示。该模型在多个图像分类基准测试中表现出色,为计算机视觉任务提供了强大的基础。
resnet18.a1_in1k - ResNet18图像分类模型 适用于多种计算机视觉任务
模型神经网络开源项目ResNetHuggingface图像分类深度学习Githubtimm
resnet18.a1_in1k是基于ResNet-B架构的图像分类模型,在ImageNet-1k数据集上训练。它采用ReLU激活函数、单层7x7卷积等特性,支持图像分类、特征提取和嵌入等任务。该模型有1170万参数,在224x224分辨率下计算量为1.8 GMACs,可用于多种计算机视觉应用。
vit-base-patch16-224 - Vision Transformer图像分类模型在ImageNet数据集上的应用
模型神经网络开源项目Huggingface图像分类机器学习Vision TransformerImageNetGithub
vit-base-patch16-224是一个基于Vision Transformer架构的图像分类模型,在ImageNet-21k数据集上预训练并在ImageNet 2012上微调。该模型采用16x16像素的图像分块和序列化处理方法,可高效处理224x224分辨率的图像。在多个图像分类基准测试中,vit-base-patch16-224展现出较好的性能,为计算机视觉任务提供了一种基于Transformer的新方案。
deep-learning-for-image-processing - 涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练的介绍深度学习在图像处理中的应用的教程
深度学习图像处理PytorchTensorflow图像分类Github开源项目
本教程介绍深度学习在图像处理中的应用,涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练。课程内容包括图像分类、目标检测、语义分割、实例分割和关键点检测,适合研究生和深度学习爱好者。所有PPT和源码均可下载,助力学习和研究。