Project Icon

caformer_b36.sail_in22k_ft_in1k

CAFormer图像分类模型基于MetaFormer设计

CAFormer基于MetaFormer架构,支持由ImageNet-22k预训练和ImageNet-1k微调,旨在增强图像识别能力。拥有98.8M参数与23.2 GMACs,擅长处理224x224像素图像。通过TIMM库访问,这款图像分类/特征骨干模型能够提升图像理解及特征提取,适用于图像分类、特征提取和图像嵌入等多种视觉任务。

ese_vovnet19b_dw.ra_in1k - VoVNet-v2轻量级图像分类模型 兼顾性能与能效
GithubHuggingfaceImageNetVoVNettimm图像分类开源项目模型特征提取
ese_vovnet19b_dw.ra_in1k是基于VoVNet-v2架构的图像分类模型,在ImageNet-1k数据集上使用RandAugment技术预训练。该模型参数量为6.5M,计算量为1.3 GMACs,适用于多种图像分类任务。除了高效的分类功能,它还可作为特征提取骨干网络,支持特征图提取和图像嵌入。模型在保持高性能的同时,优化了能耗和GPU计算效率,是一个兼顾性能与效率的轻量级选择。
xcit_nano_12_p8_224.fb_in1k - 基于跨协方差转换器的轻量级图像分类模型
GithubHuggingfaceImageNet图像分类开源项目模型深度学习神经网络计算机视觉
xcit_nano_12_p8_224.fb_in1k采用跨协方差图像转换器(XCiT)架构,是一个参数量为3.0M的轻量级图像分类模型。模型在ImageNet-1k数据集上完成预训练,支持224x224尺寸的图像输入,可应用于图像分类和特征提取。模型通过跨协方差注意力机制降低计算复杂度,适合实际部署应用。
mask2former-swin-large-coco-instance - 使用Swin骨干的高效图像分割Transformer模型
COCOGithubHuggingfaceMask2Former图像分割实例分割开源项目模型语义分割
Mask2Former在COCO数据集上的实例分割中表现出色,采用Swin骨干网,通过掩码预测和标签分类统一处理多种分割任务。相比MaskFormer,其改进的多尺度变形注意力机制提升了性能,并且不增加计算量的情况下优化了训练效率。此模型可以用于实例分割,提供多种微调版本供不同需求使用。
efficientnet_b1.ft_in1k - 基于ImageNet-1k微调的EfficientNet图像分类模型
EfficientNetGithubHuggingfaceImageNet-1kPyTorch图像分类开源项目模型特征图提取
EfficientNet图像分类模型已在ImageNet-1k上进行微调,适用于PyTorch。该模型参数为7.8M,支持特征图提取和图像嵌入,可用作高效的图像分类工具。
efficientnet_b3.ra2_in1k - EfficientNet B3变体:基于RandAugment的ImageNet-1k图像分类模型
EfficientNetGithubHuggingfacetimm图像分类开源项目模型深度学习预训练模型
efficientnet_b3.ra2_in1k是一款基于EfficientNet B3架构的图像分类模型,经过ImageNet-1k数据集训练。该模型采用RandAugment RA2数据增强策略,结合RMSProp优化器和指数衰减学习率调度,实现了优异的性能。拥有1220万参数,模型在图像分类、特征提取和嵌入生成等任务中表现出色,为计算机视觉应用提供了高效且灵活的解决方案。
mask2former-swin-large-ade-semantic - Mask2Former:统一架构实现多类型图像分割
GithubHuggingfaceMask2FormerTransformer图像分割开源项目模型计算机视觉语义分割
Mask2Former-Swin-Large-ADE-Semantic是一款先进的图像分割模型,基于Swin backbone构建并在ADE20k数据集上训练。该模型采用统一架构处理实例、语义和全景分割任务,通过预测掩码和标签集实现多类型分割。其核心优势在于采用改进的多尺度可变形注意力Transformer和掩码注意力Transformer解码器,在性能和效率方面均优于前代MaskFormer模型。Mask2Former适用于广泛的图像分割场景,能够提供精确的分割结果。
InternImage - 突破大规模视觉基础模型性能极限
GithubInternImage图像分类大规模视觉模型开源项目目标检测语义分割
InternImage是一款采用可变形卷积技术的大规模视觉基础模型。它在ImageNet分类任务上实现90.1%的Top1准确率,创下开源模型新纪录。在COCO目标检测基准测试中,InternImage达到65.5 mAP,成为唯一突破65.0 mAP的模型。此外,该模型在涵盖分类、检测和分割等任务的16个重要视觉基准数据集上均展现出卓越性能,树立了多个领域的新标杆。
GroupMixFormer - 视觉Transformer的群组混合注意力革新
GithubGroupMixFormer图像分类开源项目自注意力机制视觉Transformer计算机视觉
GroupMixFormer是一种创新的视觉Transformer模型,引入群组混合注意力(GMA)机制来增强传统自注意力。GMA可同时捕捉不同尺度的token和群组相关性,显著提升模型表征能力。在多项计算机视觉任务中,GroupMixFormer以较少参数实现了领先性能。其中GroupMixFormer-L在ImageNet-1K分类上达到86.2% Top-1准确率,GroupMixFormer-B在ADE20K分割上获得51.2% mIoU,展现出强大潜力。
DAFormer - 提升域适应语义分割的网络架构与训练策略
DAFormerGithubTransformer域自适应语义分割开源项目网络架构语义分割
通过Transformer编码器和多级上下文感知特征融合解码器,显著提升域适应语义分割性能。DAFormer使用稀有类采样、ImageNet特征距离和学习率预热等策略,提升GTA→Cityscapes和Synthia→Cityscapes的分割效果,并扩展至域泛化领域。在多个UDA基准上,DAFormer显著超越了前沿方法,成为领域推广和不受目标图像限制的语义分割任务中新的性能标杆。
MixFormer - 基于迭代混合注意力的端到端目标跟踪框架
GithubMixFormer开源项目注意力机制深度学习目标追踪计算机视觉
MixFormer是一种创新的端到端目标跟踪框架,采用目标-搜索混合注意力(MAM)骨干网络和角点头部结构,实现了无需显式集成模块的紧凑跟踪流程。这种无后处理方法在LaSOT、GOT-10K和TrackingNet等多个基准测试中表现卓越,并在VOT2020上取得0.584的EAO成绩。项目开源了代码、模型和原始结果,为目标跟踪研究领域提供了宝贵资源。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号