#Vision Transformers

Denoising Vision Transformers: 消除ViT特征图中的伪影

2024年09月05日

Vision Transformers 图像去噪特征图密集识别任务 ECCV 2024 Github 开源项目

2024年09月05日

相关项目

Denoising-ViT

Denoising Vision Transformers (DVT)是一种新型方法,用于消除视觉Transformer (ViT)特征图中的视觉伪影。DVT通过去除这些伪影,显著提升了ViT在语义分割和深度估计等密集识别任务中的表现。实验结果表明,DVT能有效改善MAE、DINO、DINOv2等多种预训练ViT模型在PASCAL VOC、ADE20K和NYU-D等数据集上的下游任务性能。

vit_base_patch32_224.augreg_in21k_ft_in1k

ViT图像分类模型在ImageNet-21k上训练并在ImageNet-1k上微调，采用数据增强和正则化，适用于图像识别和特征提取。模型包含88.2M参数，通过PyTorch实现，支持多种应用场景。

convnext-large-384

ConvNeXT是一个受Vision Transformers启发的卷积模型，通过在ImageNet-1k上以384x384分辨率训练而成，旨在提高图像分类效果。研究显示，该模型在性能上优于传统模型，并基于ResNet进行了现代化改造。开发者Liu等人在相关论文中介绍了这一模型，该模型可用于分类任务，亦可在Hugging Face平台上进行任务微调。

convnext-tiny-224

ConvNeXT是一款卷积模型，具有优于Vision Transformers的表现。设计灵感源于Swin Transformer，并对ResNet进行了现代化调整，专注于图像分类。ConvNeXT-tiny-224在ImageNet-1k数据集训练后，提供高效的分类能力。模型集线器提供适用不同任务的微调版本。

twins_svt_large.in1k

Twins-SVT是一个利用空间注意力机制的图像分类模型，在ImageNet-1k上训练，具备99.3M参数及15.1 GMACs。通过timm库调用，能有效用于图像识别与特征嵌入工作。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com