#图像分类

turicreate - 简化机器学习模型开发的工具
Turi Create机器学习模型图像分类物体检测Core MLGithub开源项目
Turi Create是一款简化机器学习模型开发的工具,适合非专业人士使用。它支持添加推荐、目标检测、图像分类、图像相似度和活动分类等功能。工具兼容文本、图像、音频、视频和传感器数据,提供内置可视化和快速扩展性,并支持导出模型到Core ML,用于iOS、macOS、watchOS和tvOS应用。
models - 产业级开源模型库,支持多场景端到端开发
飞桨开源模型库语义理解图像分类目标检测Github开源项目
飞桨开源模型库提供经过实践验证的主流模型,支持语义理解、图像分类、目标检测等场景,助力企业低成本开发和快速集成。模型库根据国内企业研发流程定制,广泛应用于能源、金融、工业、农业等领域,包含超过600个官方模型和260个生态模型。
gluon-cv - 计算机视觉领域的深度学习模型工具包,支持PyTorch和MXNet框架
GluonCV计算机视觉深度学习图像分类对象检测Github开源项目
GluonCV是一个面向工程师、研究人员和学生的计算机视觉深度学习工具包,支持快速原型设计。其主要功能包括可复现SOTA结果的训练脚本、对PyTorch和MXNet框架的支持、大量预训练模型,以及简化实现的API设计和社区支持。用户还可以通过AutoGluon执行图像分类和目标检测任务。
darts - 使用DARTS算法高效设计图像分类和语言建模架构
DARTSPyTorch卷积架构语言建模图像分类Github开源项目
DARTS算法通过连续松弛和梯度下降,在架构空间中高效设计用于图像分类(CIFAR-10和ImageNet)和语言建模(Penn Treebank和WikiText-2)的高性能卷积和循环架构。只需一块GPU即可运行,提供预训练模型及详细的架构搜索和评估指南,支持自定义架构的可视化。
awesome-openai-vision-api-experiments - OpenAI视觉API的研究与应用提供全面资源
OpenAI Vision APIGPT-4Vzero-shot学习图像分类视觉AIGithub开源项目
该项目为OpenAI视觉API的研究与应用提供全面资源,覆盖从基础图像分类至高级的零次学习模型,适合初学者与专家共同探索、分享与合作。
techniques - 一系列用于卫星与航空图像处理的深度学习技术,包括分类、分割和对象检测等多种关键技术
深度学习卫星图像图像分类对象检测图像分割Github开源项目
本网站详细介绍一系列用于卫星与航空图像处理的深度学习技术,包括分类、分割和对象检测等多种关键技术。这些技术有助于处理复杂的图像尺寸和多元的对象类别,适用于城市规划、环境监测等多个领域。
models - 探索最先进的机器学习模型与技术
ONNX Model Zoo机器学习模型图像分类对象检测语言处理Github开源项目
ONNX Model Zoo是一个开源平台,汇集了各种预训练且处于技术前沿的机器学习模型,涵盖计算机视觉、自然语言处理等多个领域。旨在为开发者、研究人员和技术爱好者提供高效实用的AI工具,加速机器学习技术的应用和发展。此外,ONNX Model Zoo支持多种框架和工具,通过共同的文件格式和操作集,促进了AI开发的灵活性和互操作性。平台以开放性和社区驱动的特性为己任,含有诸如图像分类、对象检测等主要模型,并通过简易接口及高级工具满足不同用户需求,使其既适应初学者也满足专业人士的需求。
Awesome-Backbones - 图像分类的主干网络库及其使用教程
Awesome-Backbones图像分类PyTorch模型训练预训练权重Github开源项目
提供丰富的图像分类主干网络,包括TinyViT、DeiT3、EdgeNeXt、RevVisionTransformer等,兼容Pytorch 1.7.1+及Python 3.6+。项目包含环境搭建、数据集准备、训练和评估的详细教程,适合科研和实际应用,提升图像分类模型性能。提供快速开始指南和预训练权重,帮助开发者高效部署与测试。
poolformer - 视觉任务中MetaFormer架构的应用及其效能
MetaFormerPoolFormerTransformer图像分类CVPR 2022Github开源项目
该项目展示了MetaFormer架构在视觉任务中的应用,特别通过简单的池化操作实现token混合。研究证实,基于这种方法的PoolFormer模型在ImageNet-1K验证集上表现优于DeiT和ResMLP。此外,后续工作介绍了IdentityFormer、RandFormer等MetaFormer基线模型。本项目证明了Transformer模型的竞争力主要来源于其通用架构MetaFormer,而非特定的token混合器。
vit-pytorch - 通过PyTorch实现多种视觉Transformer变体
Vision TransformerPytorch深度学习卷积神经网络图像分类Github开源项目
本项目展示了如何在PyTorch中实现和使用视觉Transformer(ViT)模型,包括Simple ViT、NaViT、Distillation、Deep ViT等多种变体。利用基于Transformer架构的简单编码器,本项目在视觉分类任务中达到了先进水平。用户可以通过pip进行安装,并参考提供的代码示例进行模型加载和预测。项目还支持高级功能如知识蒸馏、变分图像尺寸训练和深度模型优化,适用于多种视觉任务场景。
MambaVision - 高效且灵活的视觉骨干网络,适用于各种分辨率的图像处理
MambaVision深度学习计算机视觉图像分类Hugging FaceGithub开源项目
MambaVision采用混合Mamba-Transformer架构,结合自注意力和混合块,实现了卓越的图像分类和特征提取效果。其创新的对称路径设计提升了全局上下文的建模能力,并提供多种预训练模型。MambaVision支持多种分辨率图像处理,适用于分类、检测和分割等任务。最新模型支持Hugging Face和pip包,详细信息见[官网](https://huggingface.co/collections/nvidia/mambavision-66943871a6b36c9e78b327d3)。
visionscript - 抽象编程语言,用于快速执行计算机视觉任务
VisionScript计算机视觉Python对象检测图像分类Github开源项目
VisionScript是一个基于Python的编程语言,专门用于快速执行目标检测、分类和分割等常见计算机视觉任务。其简洁的语法允许用户通过少量代码完成复杂的视觉操作,并支持在交互式网络笔记本中运行。VisionScript兼容多个知名模型,包括CLIP、YOLOv8和BLIP,适合新手上手。无论是执行零样本分类,还是在照片中替换特定对象,VisionScript均能提供高效解决方案。
Metalhead.jl - 标准视觉模型,基于Flux.jl的机器学习实现
Metalhead.jl机器学习图像分类Flux.jl模型构建Github开源项目
Metalhead.jl 提供与 Flux.jl 搭配使用的标准视觉模型,包括 ResNet、DenseNet、EfficientNet 等经典结构。模块采用纯 Flux 层实现,适合构建复杂模型。安装和使用指南简便易懂,丰富的模型库支持扩展及贡献,满足多样的视觉任务需求。
EasyCV - 基于PyTorch的全能计算机视觉工具箱,支持自监督学习和Transformer模型
EasyCVPyTorch图像分类目标检测自监督学习Github开源项目
EasyCV是基于PyTorch的全能计算机视觉工具箱,专注于自监督学习、Transformer模型和主要视觉任务,包括图像分类、度量学习、目标检测和姿态估计。该工具箱提供了最先进的自监督算法如SimCLR、MoCO V2、Swav、DINO和基于掩码图像建模的MAE。它拥有简单综合的推理接口,并支持多种预训练模型。EasyCV支持多GPU和多工作者训练,利用DALI优化数据处理,使用TorchAccelerator和fp16加速训练,并通过PAI-Blade优化推理性能。
deepdetect - 用C++11编写的机器学习API和服务器,支持如Caffe、Tensorflow、Pytorch等多种深度学习框架
DeepDetect机器学习深度学习API图像分类Github开源项目
DeepDetect是一个用C++11编写的机器学习API和服务器,支持如Caffe、Tensorflow、Pytorch等多种深度学习框架。它专注于易用性和高性能,支持分类、目标检测、分割、回归等任务,适用于图像、文本和时间序列数据。该工具可自动将模型转换为嵌入式平台(如TensorRT、NCNN),无需数据库,所有数据和模型参数均存储在文件系统中。DeepDetect通过JSON格式通信,提供Python和Javascript客户端,易于集成到现有应用中。
ml-cvnets - 灵活的计算机视觉模型训练库
CVNets计算机视觉模型训练对象检测图像分类Github开源项目
CVNets是一个计算机视觉库,支持研究人员和工程师训练和评估多种计算机视觉模型,包括对象分类、对象检测和语义分割等任务。最新版本引入了直接处理文件字节的Transformer和高效在线增强,支持如Mask R-CNN、EfficientNet、Swin Transformer和ViT等模型,并增强了蒸馏功能。
AlphaTree-graphic-deep-neural-network - 深入探索深度学习与AI应用
AlphaTree深度学习神经网络图像分类模型改进Github开源项目
AlphaTree项目致力于通过详细的文章、代码和图示帮助用户掌握深度学习、GAN、NLP和大数据等领域的技术,适合希望在AI工程领域提升技能的学习者。
PyTorch-Encoding - 基于PyTorch的高效深度学习编码网络
PyTorch-Encoding语义分割深度学习ResNeSt图像分类Github开源项目
PyTorch-Encoding由Hang Zhang创建,提供了详细的安装和使用说明,包含图像分类和语义分割模型。项目集成了ResNeSt和Deep TEN等编码网络,在ADE20K和PASCAL Context等数据集上取得了出色表现。其高效的上下文编码方法为深度学习提供了新的解决方案,是计算机视觉领域的重要工具。
GroupMixFormer - 视觉Transformer的群组混合注意力革新
GroupMixFormer视觉Transformer自注意力机制图像分类计算机视觉Github开源项目
GroupMixFormer是一种创新的视觉Transformer模型,引入群组混合注意力(GMA)机制来增强传统自注意力。GMA可同时捕捉不同尺度的token和群组相关性,显著提升模型表征能力。在多项计算机视觉任务中,GroupMixFormer以较少参数实现了领先性能。其中GroupMixFormer-L在ImageNet-1K分类上达到86.2% Top-1准确率,GroupMixFormer-B在ADE20K分割上获得51.2% mIoU,展现出强大潜力。
inceptionnext - 结合Inception和ConvNeXt优势的高效图像识别模型
InceptionNeXtConvNeXt卷积神经网络图像分类深度学习Github开源项目
InceptionNeXt是一种创新的图像识别模型,融合了Inception的设计理念和ConvNeXt的架构。通过分解大型深度卷积核,该模型在速度和准确率方面取得了平衡,达到了ResNet-50的速度和ConvNeXt-T的精度。在ImageNet数据集上,InceptionNeXt展现出卓越性能,推动了计算机视觉领域的发展。研究团队提供了多种规模的预训练模型,适用于不同的应用场景。
ml-fastvit - 高效混合视觉Transformer模型用于图像分类
FastViT视觉Transformer图像分类模型性能结构重参数化Github开源项目
FastViT是一种采用结构重参数化技术的混合视觉Transformer模型。该模型在ImageNet-1K数据集上实现了准确率和延迟的良好平衡,提供多个变体以适应不同应用场景。FastViT在iPhone 12 Pro上的基准测试显示出优秀的移动端性能。项目开源了预训练模型、训练评估代码和使用文档。
Vim - 基于双向状态空间模型的高效视觉表示学习
Vision Mamba视觉表示学习状态空间模型图像分类深度学习Github开源项目
Vision Mamba是一种基于双向Mamba块的新型视觉主干网络。该模型通过位置嵌入和双向状态空间模型处理图像序列,在ImageNet分类、COCO目标检测和ADE20k语义分割等任务上表现优异。与DeiT等视觉Transformer相比,Vision Mamba不仅性能更高,还大幅提升了计算和内存效率。其在高分辨率图像特征提取方面的出色表现,使其有潜力成为新一代视觉基础模型的核心架构。
ares - 对抗性机器学习研究与评估的开源Python库
ARES 2.0对抗性机器学习图像分类目标检测鲁棒性训练Github开源项目
ARES 2.0是一个基于PyTorch的对抗性机器学习研究库。它专注于评估图像分类和目标检测模型的鲁棒性,并提供防御机制。该库支持多种攻击方法,具备分布式训练和测试能力,同时提供预训练模型。ARES 2.0为机器学习模型的安全性研究提供了全面的工具集。
MambaOut - 高效视觉模型展示简洁架构卓越性能
MambaOut计算机视觉图像分类神经网络深度学习Github开源项目
MambaOut是一种新型视觉模型架构,通过堆叠门控CNN块构建,无需使用复杂的状态空间模型。在ImageNet图像分类任务中,它的性能超越了现有的视觉Mamba模型,同时具有较低的参数量和计算复杂度。该项目提供了从轻量级MambaOut-Femto到大型MambaOut-Base的多个预训练模型,在准确率和效率间实现平衡。研究人员可利用提供的代码和教程复现结果或应用于自身任务。
MIC - 基于遮蔽图像一致性的域自适应方法
MIC域适应语义分割图像分类目标检测Github开源项目
MIC(Masked Image Consistency)是一种新型无监督域自适应方法,通过学习目标域的空间上下文关系来提高视觉识别性能。该方法对遮蔽目标图像的预测与完整图像的伪标签保持一致性,使网络能够从上下文推断遮蔽区域的内容。MIC适用于图像分类、语义分割和目标检测等多个视觉任务,在合成到真实、白天到夜间、晴朗到恶劣天气等场景的域自适应中取得了显著的性能提升。
SupContrast - 监督对比学习框架增强视觉表征
SupContrast对比学习监督学习损失函数图像分类Github开源项目
SupContrast是一个开源的监督对比学习框架,致力于提升视觉表征学习效果。该项目实现了监督对比学习和SimCLR算法,在CIFAR数据集上展现出色性能。它提供简洁的损失函数实现,支持自定义数据集,并附有详细运行指南和可视化结果。在ImageNet上,SupContrast实现了79%以上的Top-1准确率。这一工具为计算机视觉领域的研究和应用提供了重要支持。
FocalNet - 突破注意力机制的新型视觉模型架构
FocalNets图像分类目标检测语义分割卷积神经网络Github开源项目
FocalNet是一种创新的视觉模型架构,无需使用注意力机制。其核心的焦点调制技术在多项视觉任务中超越了现有的自注意力方法。该模型在ImageNet分类和COCO检测等基准测试中表现优异,同时保持了高效简洁的实现。FocalNet具有平移不变性、强输入依赖性等特点,为计算机视觉领域提供了一种全新的建模思路。
CVinW_Readings - 聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域
计算机视觉迁移学习预训练模型多模态图像分类Github开源项目
CVinW_Readings项目聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域。项目提供CVinW简介并维护相关论文集。CVinW致力于开发易于适应广泛视觉任务的可转移基础模型,特点是广泛的任务转移场景和低转移成本。内容涵盖任务级转移、高效模型适应和域外泛化等研究方向的最新进展。
LITv2 - 基于HiLo注意力的快速视觉Transformer
LITv2HiLo注意力视觉Transformer图像分类目标检测Github开源项目
LITv2是一种基于HiLo注意力机制的高效视觉Transformer模型。它将注意力头分为两组,分别处理高频局部细节和低频全局结构,从而在多种模型规模下实现了优于现有方法的性能和更快的速度。该项目开源了图像分类、目标检测和语义分割任务的预训练模型和代码实现。
nsfwjs - 基于浏览器的图像内容识别工具
NSFWJSTensorFlow.js机器学习图像分类内容审核Github开源项目
nsfwjs是一个基于TensorFlow.js的JavaScript库,用于在客户端浏览器中识别图像内容。该工具可将图像分为绘画、色情动画、中性、色情和性感五类,准确率约为90-93%。nsfwjs支持浏览器、React Native和Node.js等多种环境,并提供模型缓存和自托管功能,以提升性能和灵活性。这个开源项目为开发者提供了一个便捷的图像内容识别解决方案。
InternImage - 突破大规模视觉基础模型性能极限
InternImage大规模视觉模型目标检测图像分类语义分割Github开源项目
InternImage是一款采用可变形卷积技术的大规模视觉基础模型。它在ImageNet分类任务上实现90.1%的Top1准确率,创下开源模型新纪录。在COCO目标检测基准测试中,InternImage达到65.5 mAP,成为唯一突破65.0 mAP的模型。此外,该模型在涵盖分类、检测和分割等任务的16个重要视觉基准数据集上均展现出卓越性能,树立了多个领域的新标杆。
LAYLY - IA - 图像分析工具识别人工智能生成和篡改内容
AI工具AI检测图像分类深度伪造区块链社交媒体
LAYLY - IA是一款图像分析工具,运用算法和机器学习技术识别图像中的人工智能生成或篡改痕迹。该工具可检测深度伪造和美颜滤镜等AI生成内容,提升用户的媒体导航和信息辨识能力。未来还将推出语音深度伪造检测和浏览器插件功能,旨在创造更透明、可信的在线环境,促进技术创新与社会发展的良性互动。
C-Tran - Transformer在多标签图像分类中的应用
图像分类Transformers多标签分类深度学习计算机视觉Github开源项目
C-Tran是一个探索Transformer在多标签图像分类中应用的开源项目。该项目提出了一种通用多标签图像分类方法,在COCO80和VOC20等数据集上展现出优秀性能。项目包含完整的训练和运行指南,涵盖数据处理和模型训练等关键步骤。C-Tran为计算机视觉领域提供了新的研究方向,对推进多标签图像分类技术具有重要意义。
mindcv - 基于MindSpore的开源计算机视觉框架
MindCV计算机视觉深度学习框架预训练模型图像分类Github开源项目
MindCV是一个开源计算机视觉框架,基于MindSpore构建。它集成了经典和最新的视觉模型,并提供预训练权重。通过模块化设计,支持定制化的数据处理、模型构建和训练流程。该框架适用于迁移学习和自定义CV任务开发,可在多种硬件平台上运行。MindCV注重效率与灵活性的平衡,同时提供了详细的教程和示例,方便开发者快速入门和应用。
FasterViT - 高效分层注意力的视觉transformer新突破
FasterViT视觉Transformer图像分类目标检测层级注意力机制Github开源项目
FasterViT是一种创新的视觉transformer模型,采用分层注意力机制高效捕获短程和长程信息。在ImageNet分类任务中,FasterViT实现了精度和吞吐量的新平衡,无需额外训练数据即达到最先进水平。该项目提供多种预训练模型,适应不同计算资源和精度需求,支持任意分辨率输入,为目标检测、分割等下游任务提供灵活选择。
deep-learning-for-image-processing - 涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练的介绍深度学习在图像处理中的应用的教程
深度学习图像处理PytorchTensorflow图像分类Github开源项目
本教程介绍深度学习在图像处理中的应用,涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练。课程内容包括图像分类、目标检测、语义分割、实例分割和关键点检测,适合研究生和深度学习爱好者。所有PPT和源码均可下载,助力学习和研究。