#ViT

TransformerHub - 实现与参考多种Transformer模型

TransformerHubTransformerGPTBERTViTGithub开源项目

此项目实现了多种Transformer架构，包括seq2seq、仅编码器、仅解码器和统一模型，旨在提高编程技能并提供深度学习参考。特色包括多种Attention模块、位置嵌入和采样方法，当前进展是实现DINO模型。项目受到多个开源项目的启发和支持。

HistoSSLscaling - 病理组织图像自监督学习新方法

自监督学习组织病理学掩码图像建模ViTPhikonGithub开源项目

HistoSSLscaling项目开发了基于掩码图像建模的自监督学习方法，用于病理组织图像分析。该项目的Phikon模型在4000万张全癌种病理切片上预训练，在多项下游任务中表现出色。项目提供了预训练模型、代码和数据集特征，为计算病理学研究提供支持。

vit_base_patch32_224.augreg_in21k_ft_in1k - 基于ViT架构的图像分类模型，兼容PyTorch

timmImageNet模型Github开源项目图像分类Vision TransformersViTHuggingface

ViT图像分类模型在ImageNet-21k上训练并在ImageNet-1k上微调，采用数据增强和正则化，适用于图像识别和特征提取。模型包含88.2M参数，通过PyTorch实现，支持多种应用场景。

vit_small_r26_s32_384.augreg_in21k_ft_in1k - ResNet与Vision Transformer结合的图像分类模型解析

ImageNetGithub开源项目图像分类timmViTHuggingface增广正则化模型

该模型结合ResNet与Vision Transformer（ViT）的特点，专用于图像分类。最初在ImageNet-21k上训练，后在ImageNet-1k上微调，并在JAX中创建，由Ross Wightman移植到PyTorch环境中。模型采用了36.5M参数和27.7M激活，针对384x384图像进行了优化，通过增强和正则化技术提升了处理复杂图像任务的能力，适用于多种图像识别应用。

vit_large_patch14_dinov2.lvd142m - 基于DINOv2的大规模Vision Transformer视觉特征提取模型

timmDINOv2特征提取模型Github开源项目图像分类ViTHuggingface

这是一个基于Vision Transformer架构的图像特征提取模型，采用DINOv2自监督学习方法在LVD-142M数据集上预训练。模型包含3.044亿参数，支持518x518像素输入，适用于图像分类和特征提取任务。该模型提供了完整的加载、预处理和推理示例代码，可应用于需要高质量视觉特征表示的各种计算机视觉场景。

相关文章

Article Cover

TransformerHub: 探索深度学习前沿的变形金刚模型仓库

Article Cover

Phikon:一个用于组织病理学的自监督学习模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号