#FastViT
ml-fastvit - 高效混合视觉Transformer模型用于图像分类
FastViT视觉Transformer图像分类模型性能结构重参数化Github开源项目
FastViT是一种采用结构重参数化技术的混合视觉Transformer模型。该模型在ImageNet-1K数据集上实现了准确率和延迟的良好平衡,提供多个变体以适应不同应用场景。FastViT在iPhone 12 Pro上的基准测试显示出优秀的移动端性能。项目开源了预训练模型、训练评估代码和使用文档。
fastvit_ma36.apple_in1k - Apple开源的高性能混合视觉Transformer图像处理模型
计算机视觉图像分类FastViTGithub开源项目模型Huggingface神经网络机器学习
FastViT是Apple开源的混合视觉Transformer模型,基于结构重参数化技术构建。模型在ImageNet-1k数据集训练,参数量4410万,支持256x256图像输入。主要功能包括图像分类、特征图提取和图像嵌入表示。通过混合架构设计,在保证准确率的基础上优化了计算效率。