#LAION-2B
vit_base_patch16_clip_384.laion2b_ft_in12k_in1k - LAION-2B预训练的Vision Transformer图像分类模型
LAION-2BGithub图像分类HuggingfaceVision TransformerImageNet深度学习开源项目模型
该模型基于Vision Transformer架构,在LAION-2B数据集上预训练,随后在ImageNet-12k和ImageNet-1k上微调。模型接受384x384像素的输入图像,包含8690万个参数。除图像分类外,还可用于生成图像特征嵌入。通过timm框架实现,提供灵活配置和简便使用,适用于多种计算机视觉任务。
vit_base_patch32_clip_448.laion2b_ft_in12k_in1k - LAION-2B预训练的ViT图像分类模型
ImageNetGithub开源项目图像分类LAION-2BtimmHuggingface视觉Transformer模型
这是一个基于Vision Transformer架构的图像分类模型,在LAION-2B数据集预训练后在ImageNet-12k和ImageNet-1k上微调。模型包含8830万参数,支持448x448输入图像,可用于图像分类和特征提取。该模型通过timm库实现,提供简单使用示例,采用Apache-2.0许可。