#Vision Transformer

vit_tiny_patch16_224.augreg_in21k - 增强与正则化的ViT图像分类模型

开源项目特征骨干模型GithubHuggingfaceVision TransformerImageNet-21k图像分类数据增强

这是一个高效的Vision Transformer（ViT）图像分类模型，经过增强和正则化，在ImageNet-21k上进行了训练。由论文作者在JAX中开发，并由Ross Wightman移植到PyTorch。模型的类型包括图像分类和特征提取，参数量为9.7百万，1.1 GMACs，处理图像尺寸为224x224。项目中有图像分类和嵌入的代码示例，以及支持特定数据转换的功能，提升模型性能。该模型适用于高效图像识别应用，并提供开发者比较参考的方法。

Virchow - 自监督视觉模型实现病理图像顶尖性能

Github模型开源项目Vision TransformerPyTorchHuggingfaceVirchow图片特征提取计算病理学

Virchow是通过1.5百万张病理学图像预训练的自监督视觉模型，适用于特征提取和多种计算病理学应用。采用ViT-H/14架构，具有32层和1280维度嵌入，优化于PyTorch和timm框架中高效运行，适合GPU混合精度模式。用户需遵守开源许可证，并可在HuggingFace平台获取。Virchow可根据具体数据集或应用需求进行细调整合。

vit-large-patch16-224 - 大型视觉Transformer模型在ImageNet数据集上的图像分类实现

Github图像分类HuggingfaceVision Transformer深度学习ImageNet开源项目模型计算机视觉

Vision Transformer大型模型在ImageNet-21k数据集上完成预训练，包含1400万张图像和21,843个分类。模型通过将图像分割为16x16像素块进行处理，支持224x224分辨率输入，并在ImageNet 2012数据集上进行微调。该模型基于PyTorch框架实现，可用于图像分类等视觉任务。

vit-base-patch16-224-cifar10 - 视觉Transformer在CIFAR10上的图像分类优化

GithubCIFAR10开源项目图像分类Vision Transformer模型微调Huggingface深度学习模型

Vision Transformer (ViT) 模型经过ImageNet-21k数据集的预训练，并在CIFAR10数据集上微调，适用于224x224分辨率的图像分类任务。采用16x16像素的固定大小图像补丁进行特征提取，为下游任务提供了有效支持。在GitHub上访问相关代码，了解如何将该技术应用到各种项目中。

vit_base_patch16_224.orig_in21k - Vision Transformer图像特征提取模型无分类头版本

timm图像分类Huggingface特征提取开源项目模型预训练模型GithubVision Transformer

vit_base_patch16_224.orig_in21k是一个基于Vision Transformer架构的图像特征提取模型，在ImageNet-21k数据集上预训练。模型采用16x16图像块处理，支持224x224输入尺寸，包含8580万参数。移除分类头设计使其专注于特征提取，适合迁移学习和微调。通过timm库可轻松应用于图像分类和特征提取任务，为计算机视觉研究提供有力支持。

vit_small_patch14_reg4_dinov2.lvd142m - 基于自监督学习的视觉Transformer用于图像特征提取和分类

Github模型开源项目图像分类自监督学习深度学习Vision TransformerHuggingface图像特征

该Vision Transformer (ViT) 图像特征模型通过自监督学习进行预训练，基于LVD-142M数据集并采用DINOv2方法。模型专为图像分类和特征提取设计，包含22.1M参数和29.6 GMAC的运算能力。其注册方法增强了处理518x518像素图像的效果，DINOv2技术有助于无监督视觉特征学习。此模型在图像嵌入应用中表现优异，并支持多种视觉分析与研究。用户可使用timm库简单调用和部署模型，适合多种机器学习场景。

vit-base-patch32-224-in21k - Vision Transformer模型在2100万图像数据集上预训练

Vision Transformer计算机视觉图像识别ImageNet-21k深度学习模型Github开源项目Huggingface

Vision Transformer (ViT) 是一种基于transformer架构的视觉模型，在ImageNet-21k数据集上预训练。该模型将图像转换为固定大小的patch序列，通过线性嵌入和位置编码输入transformer编码器。ViT可应用于图像分类等多种视觉任务，只需在预训练编码器上添加任务特定层。模型在224x224分辨率下训练，批量大小为4096，在多项图像分类基准测试中展现出优秀性能。

vit_small_patch32_224.augreg_in21k_ft_in1k - Vision Transformer图像分类模型预训练于ImageNet-21k并微调于ImageNet-1k

Vision TransformertimmImageNet深度学习模型Github开源项目图像分类Huggingface

这是一个基于Vision Transformer (ViT)架构的图像分类模型，在ImageNet-21k上进行预训练，并在ImageNet-1k上微调。模型包含2290万参数，处理224x224尺寸的图像输入。通过额外的数据增强和正则化技术提升性能，最初在JAX框架中训练，后移植至PyTorch。该模型提供简洁的API，支持图像分类和特征提取两大功能，可广泛应用于多种计算机视觉任务。

vit_base_patch16_224.orig_in21k_ft_in1k - 基于ImageNet大规模数据集的Vision Transformer模型

Vision TransformertimmPyTorchImageNet模型Github开源项目图像分类Huggingface

该Vision Transformer模型经过ImageNet-21k数据集预训练并在ImageNet-1k上微调，采用86.6M参数，适用于224x224图像的分类与特征提取。最初由论文作者在JAX上训练，并由Ross Wightman移植到PyTorch环境，可应用于图像分类和嵌入场景。

vitmatte-small-distinctions-646 - 基于ViTMatte模型的高效图像抠图技术

图像抠图轻量化ViTMatteHuggingfaceGithub开源项目模型预训练Vision Transformer

ViTMatte模型利用Distinctions-646数据集进行训练，通过与Vision Transformer的结合，实现图像前景的精确分离。此模型简化了传统图像抠图的复杂性，适用于多种应用。可在Hugging Face平台找到该模型的不同版本，以适应各种图像分离需求。

vit_small_patch8_224.dino - 基于自监督DINO的图像特征提取Transformer

图像分类模型比较自监督学习HuggingfaceGithub开源项目模型特征提取Vision Transformer

项目提供了一种自监督DINO方法的Vision Transformer模型，用于图像特征提取。具有21.7M参数和16.8 GMACs运算量，预训练数据为ImageNet-1k。适用于多种视觉任务，支持通过PyTorch和timm库实现，确保高效处理。这项技术在视觉Transformer领域表现出色。

vit-large-patch16-384 - Vision Transformer大模型，提升高分辨率图像分类表现

深度学习图像分类Huggingfacetransformer开源项目模型GithubVision TransformerImageNet

项目提供了预训练于ImageNet-21k并在ImageNet 2012上微调的Vision Transformer（ViT）大模型。ViT通过将图像分为固定大小的补丁并使用Transformer编码器进行解析，提升了分类精度和特征提取能力，支持高分辨率视觉识别任务并兼容PyTorch使用。

samvit_base_patch16.sa1b - 高效的图像特征提取与分类工具

图像分类图像特征提取samvit_base_patch16.sa1bHuggingfaceGithub开源项目模型预训练Vision Transformer

Segment-Anything Vision Transformer（SAM ViT）模型专注于图像特征提取与分类，不含分割头。使用MAE权重进行初始化，并通过SA-1B数据集的预训练，展示出89.7M的参数量及486.4 GMACs的计算性能，适宜处理1024x1024图像。Python代码示例提供了图像分类与嵌入应用方式，用户可通过timm库使用预训练模型‘samvit_base_patch16.sa1b’以提升图像分析效率。

vit_large_patch14_clip_336.openai_ft_in12k_in1k - ViT图像分类与特征提取模型

图像分类ImageNet-1kHuggingface预训练模型Github开源项目模型WIT-400MVision Transformer

OpenAI的ViT图像分类模型，利用CLIP在WIT-400M上预训练，并在ImageNet数据集上微调，适合多种视觉任务。其高性能参数为研究与开发提供强大支持，通过示例代码，可轻松实现图像分类与嵌入功能。

dino-vits8 - 采用DINO训练的自监督Vision Transformer模型

Github预训练模型开源项目图像分类自监督学习Vision TransformerHuggingfaceDINO

小型Vision Transformer模型使用DINO自监督方法训练，专为ImageNet-1k数据集预训练。模型通过8x8像素的固定大小图像块输入，用于图像表征，无需微调便可用于图像分类任务。ViT模型适合下游任务的特征提取，并可通过线性层进行分类。用户可在Hugging Face上找到适合特定任务的微调版本。

vit-base-patch32-384 - Vision Transformer图像分类模型支持大规模数据训练

ImageNetGithub开源项目图像分类计算机视觉Vision TransformerHuggingface深度学习模型

Vision Transformer（ViT）是一款图像分类模型，采用Transformer编码器架构，通过将图像分割为固定大小patch进行处理。模型在包含1400万张图像的ImageNet-21k数据集完成预训练，并在ImageNet-1k数据集上进行384x384分辨率的微调。提供预训练权重，可直接应用于图像分类或迁移学习任务。

相关文章

Article Cover

Awesome-Transformer-Attention: 视觉Transformer和注意力机制的全面综述

Article Cover

MultiModalMamba: 融合ViT与Mamba的高性能多模态AI模型

Article Cover

DINOv2: 无监督学习的强大视觉特征提取器

Article Cover

Vision Transformer: 图像识别的变革性架构

Article Cover

ViT-Prisma：一个强大的视觉Transformer机制可解释性库

Article Cover

GeoSeg: 一个基于计算机视觉的高效遥感影像语义分割工具箱

Article Cover

QFormer: 突破性的四边形注意力视觉Transformer

Article Cover

LViT: 语言与视觉变压器在医学图像分割中的融合

Article Cover

Transformer在医学影像分析中的应用：一个全面综述

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号