热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#ViTamin
ViTamin - 推动计算机视觉进入新时代的可扩展视觉语言模型
Github
开源项目
深度学习
图像处理
计算机视觉
视觉语言模型
ViTamin
ViTamin是一系列可扩展的视觉语言模型,在图像分类、开放词汇检测和分割等任务上取得突破。以436M参数量在DataComp-1B数据集训练,实现82.9%的ImageNet零样本准确率。在7个开放词汇分割基准测试中创新纪录,并提升大型多模态模型能力。获timm和OpenCLIP官方支持,提供简单接口。ViTamin为计算机视觉领域带来新的可能性。
1
1
相关文章
ViTamin: 革新性的可扩展视觉模型设计
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号