#特征骨干
vit_tiny_patch16_224.augreg_in21k - 增强与正则化的ViT图像分类模型
开源项目特征骨干模型GithubHuggingfaceVision TransformerImageNet-21k图像分类数据增强
这是一个高效的Vision Transformer(ViT)图像分类模型,经过增强和正则化,在ImageNet-21k上进行了训练。由论文作者在JAX中开发,并由Ross Wightman移植到PyTorch。模型的类型包括图像分类和特征提取,参数量为9.7百万,1.1 GMACs,处理图像尺寸为224x224。项目中有图像分类和嵌入的代码示例,以及支持特定数据转换的功能,提升模型性能。该模型适用于高效图像识别应用,并提供开发者比较参考的方法。
convnextv2_huge.fcmae_ft_in22k_in1k_384 - 高级卷积网络用于图像分类与特征提取
图像分类HuggingfaceConvNeXt-V2开源项目模型预训练模型Github特征骨干ImageNet-1k
ConvNeXt-V2是一种先进的卷积网络模型,专为图像分类与特征提取而设计。此模型通过全卷积掩码自编码器进行预训练,并在ImageNet-22k和ImageNet-1k上进行微调。具备660.3M参数和338.0 GMACs的计算成本,专为384x384大小的图像设计,确保高效处理与高精度结果。其在主流图像分类任务中的表现卓越,达到88.668的Top-1准确率和98.738的Top-5准确率,其框架优化适配多种计算场景。