热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#边缘部署
VILA1.5-3b - 交错图像文本预训练的视觉语言模型突破
模型
图像文本预训练
边缘部署
开源项目
多图像推理
Huggingface
VILA
Github
视觉语言模型
VILA1.5-3b是一款基于交错图像-文本数据预训练的视觉语言模型。它具备多图像推理、上下文学习和视觉思维链等能力,可通过AWQ 4位量化部署于边缘设备。该模型采用交错图像-文本预训练、语言模型解冻和指令数据重混合等创新技术,有效提升了视觉语言和纯文本任务性能。VILA1.5-3b支持多种硬件架构,适用于计算机视觉、自然语言处理等研究领域。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号