#Vision Transformer

vit_tiny_patch16_224.augreg_in21k - 增强与正则化的ViT图像分类模型
开源项目特征骨干模型GithubHuggingfaceVision TransformerImageNet-21k图像分类数据增强
这是一个高效的Vision Transformer(ViT)图像分类模型,经过增强和正则化,在ImageNet-21k上进行了训练。由论文作者在JAX中开发,并由Ross Wightman移植到PyTorch。模型的类型包括图像分类和特征提取,参数量为9.7百万,1.1 GMACs,处理图像尺寸为224x224。项目中有图像分类和嵌入的代码示例,以及支持特定数据转换的功能,提升模型性能。该模型适用于高效图像识别应用,并提供开发者比较参考的方法。
Virchow - 自监督视觉模型实现病理图像顶尖性能
Github模型开源项目Vision TransformerPyTorchHuggingfaceVirchow图片特征提取计算病理学
Virchow是通过1.5百万张病理学图像预训练的自监督视觉模型,适用于特征提取和多种计算病理学应用。采用ViT-H/14架构,具有32层和1280维度嵌入,优化于PyTorch和timm框架中高效运行,适合GPU混合精度模式。用户需遵守开源许可证,并可在HuggingFace平台获取。Virchow可根据具体数据集或应用需求进行细调整合。
vit-large-patch16-224 - 大型视觉Transformer模型在ImageNet数据集上的图像分类实现
Github图像分类HuggingfaceVision Transformer深度学习ImageNet开源项目模型计算机视觉
Vision Transformer大型模型在ImageNet-21k数据集上完成预训练,包含1400万张图像和21,843个分类。模型通过将图像分割为16x16像素块进行处理,支持224x224分辨率输入,并在ImageNet 2012数据集上进行微调。该模型基于PyTorch框架实现,可用于图像分类等视觉任务。
vit-base-patch16-224-cifar10 - 视觉Transformer在CIFAR10上的图像分类优化
GithubCIFAR10开源项目图像分类Vision Transformer模型微调Huggingface深度学习模型
Vision Transformer (ViT) 模型经过ImageNet-21k数据集的预训练,并在CIFAR10数据集上微调,适用于224x224分辨率的图像分类任务。采用16x16像素的固定大小图像补丁进行特征提取,为下游任务提供了有效支持。在GitHub上访问相关代码,了解如何将该技术应用到各种项目中。
vit_base_patch16_224.orig_in21k - Vision Transformer图像特征提取模型无分类头版本
timm图像分类Huggingface特征提取开源项目模型预训练模型GithubVision Transformer
vit_base_patch16_224.orig_in21k是一个基于Vision Transformer架构的图像特征提取模型,在ImageNet-21k数据集上预训练。模型采用16x16图像块处理,支持224x224输入尺寸,包含8580万参数。移除分类头设计使其专注于特征提取,适合迁移学习和微调。通过timm库可轻松应用于图像分类和特征提取任务,为计算机视觉研究提供有力支持。
vit_small_patch14_reg4_dinov2.lvd142m - 基于自监督学习的视觉Transformer用于图像特征提取和分类
Github模型开源项目图像分类自监督学习深度学习Vision TransformerHuggingface图像特征
该Vision Transformer (ViT) 图像特征模型通过自监督学习进行预训练,基于LVD-142M数据集并采用DINOv2方法。模型专为图像分类和特征提取设计,包含22.1M参数和29.6 GMAC的运算能力。其注册方法增强了处理518x518像素图像的效果,DINOv2技术有助于无监督视觉特征学习。此模型在图像嵌入应用中表现优异,并支持多种视觉分析与研究。用户可使用timm库简单调用和部署模型,适合多种机器学习场景。
vit-base-patch32-224-in21k - Vision Transformer模型在2100万图像数据集上预训练
Vision Transformer计算机视觉图像识别ImageNet-21k深度学习模型Github开源项目Huggingface
Vision Transformer (ViT) 是一种基于transformer架构的视觉模型,在ImageNet-21k数据集上预训练。该模型将图像转换为固定大小的patch序列,通过线性嵌入和位置编码输入transformer编码器。ViT可应用于图像分类等多种视觉任务,只需在预训练编码器上添加任务特定层。模型在224x224分辨率下训练,批量大小为4096,在多项图像分类基准测试中展现出优秀性能。
vit_small_patch32_224.augreg_in21k_ft_in1k - Vision Transformer图像分类模型 预训练于ImageNet-21k并微调于ImageNet-1k
Vision TransformertimmImageNet深度学习模型Github开源项目图像分类Huggingface
这是一个基于Vision Transformer (ViT)架构的图像分类模型,在ImageNet-21k上进行预训练,并在ImageNet-1k上微调。模型包含2290万参数,处理224x224尺寸的图像输入。通过额外的数据增强和正则化技术提升性能,最初在JAX框架中训练,后移植至PyTorch。该模型提供简洁的API,支持图像分类和特征提取两大功能,可广泛应用于多种计算机视觉任务。
vit_base_patch16_224.orig_in21k_ft_in1k - 基于ImageNet大规模数据集的Vision Transformer模型
Vision TransformertimmPyTorchImageNet模型Github开源项目图像分类Huggingface
该Vision Transformer模型经过ImageNet-21k数据集预训练并在ImageNet-1k上微调,采用86.6M参数,适用于224x224图像的分类与特征提取。最初由论文作者在JAX上训练,并由Ross Wightman移植到PyTorch环境,可应用于图像分类和嵌入场景。
vitmatte-small-distinctions-646 - 基于ViTMatte模型的高效图像抠图技术
图像抠图轻量化ViTMatteHuggingfaceGithub开源项目模型预训练Vision Transformer
ViTMatte模型利用Distinctions-646数据集进行训练,通过与Vision Transformer的结合,实现图像前景的精确分离。此模型简化了传统图像抠图的复杂性,适用于多种应用。可在Hugging Face平台找到该模型的不同版本,以适应各种图像分离需求。
vit_small_patch8_224.dino - 基于自监督DINO的图像特征提取Transformer
图像分类模型比较自监督学习HuggingfaceGithub开源项目模型特征提取Vision Transformer
项目提供了一种自监督DINO方法的Vision Transformer模型,用于图像特征提取。具有21.7M参数和16.8 GMACs运算量,预训练数据为ImageNet-1k。适用于多种视觉任务,支持通过PyTorch和timm库实现,确保高效处理。这项技术在视觉Transformer领域表现出色。
vit-large-patch16-384 - Vision Transformer大模型,提升高分辨率图像分类表现
深度学习图像分类Huggingfacetransformer开源项目模型GithubVision TransformerImageNet
项目提供了预训练于ImageNet-21k并在ImageNet 2012上微调的Vision Transformer(ViT)大模型。ViT通过将图像分为固定大小的补丁并使用Transformer编码器进行解析,提升了分类精度和特征提取能力,支持高分辨率视觉识别任务并兼容PyTorch使用。
samvit_base_patch16.sa1b - 高效的图像特征提取与分类工具
图像分类图像特征提取samvit_base_patch16.sa1bHuggingfaceGithub开源项目模型预训练Vision Transformer
Segment-Anything Vision Transformer(SAM ViT)模型专注于图像特征提取与分类,不含分割头。使用MAE权重进行初始化,并通过SA-1B数据集的预训练,展示出89.7M的参数量及486.4 GMACs的计算性能,适宜处理1024x1024图像。Python代码示例提供了图像分类与嵌入应用方式,用户可通过timm库使用预训练模型‘samvit_base_patch16.sa1b’以提升图像分析效率。
vit_large_patch14_clip_336.openai_ft_in12k_in1k - ViT图像分类与特征提取模型
图像分类ImageNet-1kHuggingface预训练模型Github开源项目模型WIT-400MVision Transformer
OpenAI的ViT图像分类模型,利用CLIP在WIT-400M上预训练,并在ImageNet数据集上微调,适合多种视觉任务。其高性能参数为研究与开发提供强大支持,通过示例代码,可轻松实现图像分类与嵌入功能。
dino-vits8 - 采用DINO训练的自监督Vision Transformer模型
Github预训练模型开源项目图像分类自监督学习Vision TransformerHuggingfaceDINO
小型Vision Transformer模型使用DINO自监督方法训练,专为ImageNet-1k数据集预训练。模型通过8x8像素的固定大小图像块输入,用于图像表征,无需微调便可用于图像分类任务。ViT模型适合下游任务的特征提取,并可通过线性层进行分类。用户可在Hugging Face上找到适合特定任务的微调版本。
vit-base-patch32-384 - Vision Transformer图像分类模型支持大规模数据训练
ImageNetGithub开源项目图像分类计算机视觉Vision TransformerHuggingface深度学习模型
Vision Transformer(ViT)是一款图像分类模型,采用Transformer编码器架构,通过将图像分割为固定大小patch进行处理。模型在包含1400万张图像的ImageNet-21k数据集完成预训练,并在ImageNet-1k数据集上进行384x384分辨率的微调。提供预训练权重,可直接应用于图像分类或迁移学习任务。