#视觉转换器
ast-finetuned-audioset-10-10-0.4593 - 音频光谱变换器在AudioSet上的精调应用
AudioSetHuggingface模型音频分类Github声谱图开源项目Audio Spectrogram Transformer视觉转换器
音频光谱变换器是一种在AudioSet上精调的模型,通过将音频转化为光谱图后应用视觉变换器,达成了高效的音频分类效果,在多项音频分类基准测试中表现卓越。
beit-base-patch16-224-pt22k-ft22k - BEiT 基于Transformer的自监督图像分类模型
模型BEiT开源项目自监督学习图像分类HuggingfaceImageNet视觉转换器Github
BEiT是一种基于Transformer的图像分类模型,在ImageNet-22k数据集上进行自监督预训练和微调。它采用掩码预测目标和相对位置编码,有效学习图像表示。该模型在多个图像分类基准测试中表现出色,为计算机视觉任务提供了强大的基础。
yolos-tiny - 轻量级Vision Transformer目标检测模型
模型视觉转换器目标检测YOLOSGithub图像处理COCO数据集Huggingface开源项目
YOLOS-tiny是基于Vision Transformer的轻量级目标检测模型,在COCO 2017数据集上微调。模型采用简单架构,通过双边匹配损失训练,可预测物体类别和边界框。在COCO验证集上达到28.7 AP,与复杂框架性能相当。YOLOS-tiny为资源受限场景提供高效目标检测方案,适用于各种计算机视觉应用。
cvt-13 - 融合CNN和ViT优势的创新图像分类模型
模型CvT开源项目Huggingface图像分类ImageNet视觉转换器Github深度学习
CvT-13是一款结合卷积神经网络(CNN)和视觉变换器(ViT)优势的图像分类模型。该模型在ImageNet-1k数据集上预训练,可处理224x224分辨率图像。CvT-13融合了CNN的局部特征提取和ViT的全局建模能力,在图像分类任务中表现出色。研究者可通过Hugging Face的transformers库轻松应用此模型于不同的图像分类项目中。
vit_large_patch16_224.augreg_in21k_ft_in1k - 预训练ViT大模型实现高性能图像分类与特征提取
ImageNet模型视觉转换器图像分类迁移学习GithubtimmHuggingface开源项目
这是一个基于Vision Transformer (ViT)架构的大型图像处理模型,在ImageNet-21k数据集上预训练,并在ImageNet-1k上微调。模型采用了先进的数据增强和正则化技术,适用于图像分类和特征提取任务。它包含3.04亿参数,处理224x224尺寸的输入图像。通过TIMM库,用户可以方便地使用该模型进行图像分类和特征嵌入提取。由于在大规模数据集上训练,该模型展现出卓越的图像理解能力。
hibou-L - 专注数字病理学的预训练视觉Transformer模型
Hibou-L病理学医学影像视觉转换器模型GithubDINOv2Huggingface开源项目
面向数字病理学的视觉Transformer模型,通过12亿张医疗图像数据集训练而成。模型专注于病理图像特征提取,可应用于多种病理分析任务,并通过transformers库实现便捷部署。
swin-base-patch4-window12-384 - 高效图像分类的Swin Transformer视觉模型
自注意力机制Swin Transformer视觉转换器图像分类Huggingface层次特征图开源项目模型Github
Swin Transformer是一款视觉Transformer,通过使用层级特征图和移窗技术,进行高效图像分类。模型在ImageNet-1k数据集上以384x384分辨率训练,具备线性计算复杂度,使其适用于图像分类和密集识别任务。模型可用于原始图像分类,或者在模型集中寻找细化版本,适合处理计算密集型任务。