#Vision Transformers

Denoising-ViT - 去噪视觉Transformer优化密集识别任务效果
Vision Transformers图像去噪特征图密集识别任务ECCV 2024Github开源项目
Denoising Vision Transformers (DVT)是一种新型方法,用于消除视觉Transformer (ViT)特征图中的视觉伪影。DVT通过去除这些伪影,显著提升了ViT在语义分割和深度估计等密集识别任务中的表现。实验结果表明,DVT能有效改善MAE、DINO、DINOv2等多种预训练ViT模型在PASCAL VOC、ADE20K和NYU-D等数据集上的下游任务性能。
vit_base_patch32_224.augreg_in21k_ft_in1k - 基于ViT架构的图像分类模型,兼容PyTorch
timmImageNet模型Github开源项目图像分类Vision TransformersViTHuggingface
ViT图像分类模型在ImageNet-21k上训练并在ImageNet-1k上微调,采用数据增强和正则化,适用于图像识别和特征提取。模型包含88.2M参数,通过PyTorch实现,支持多种应用场景。
convnext-large-384 - ConvNeXT模型在图像分类中的创新突破
图像分类HuggingfaceImageNetVision TransformersGithub开源项目模型ResNetConvNeXT
ConvNeXT是一个受Vision Transformers启发的卷积模型,通过在ImageNet-1k上以384x384分辨率训练而成,旨在提高图像分类效果。研究显示,该模型在性能上优于传统模型,并基于ResNet进行了现代化改造。开发者Liu等人在相关论文中介绍了这一模型,该模型可用于分类任务,亦可在Hugging Face平台上进行任务微调。
convnext-tiny-224 - 高效图像分类 ConvNeXT卷积神经网络的新突破
图像分类HuggingfaceVision TransformersImageNetGithub开源项目模型ResNetConvNeXT
ConvNeXT是一款卷积模型,具有优于Vision Transformers的表现。设计灵感源于Swin Transformer,并对ResNet进行了现代化调整,专注于图像分类。ConvNeXT-tiny-224在ImageNet-1k数据集训练后,提供高效的分类能力。模型集线器提供适用不同任务的微调版本。
twins_svt_large.in1k - Twins-SVT模型适用于图像分类的创新Transformer架构
timmTwins-SVTImageNet-1k模型Github开源项目图像分类Vision TransformersHuggingface
Twins-SVT是一个利用空间注意力机制的图像分类模型,在ImageNet-1k上训练,具备99.3M参数及15.1 GMACs。通过timm库调用,能有效用于图像识别与特征嵌入工作。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号