热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#InternViT
InternViT-300M-448px - 动态分辨率视觉模型提供高效特征提取和OCR功能
Github
开源项目
模型
知识蒸馏
Huggingface
图像嵌入
视觉基础模型
OCR能力
InternViT
InternViT-300M-448px是一个经过知识蒸馏的视觉基础模型,具有304M参数量和448x448的动态输入分辨率。该模型支持多图块处理,训练时1-12个,测试时可扩展至40个。通过在LAION、COYO等多个数据集上预训练,并整合额外OCR数据,模型展现出优秀的鲁棒性、文字识别和高分辨率处理能力。它可为多种视觉任务提供高质量的图像特征提取。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号