热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Video-LLaVA
Video-LLaVA: 通过对齐和投影学习统一的视觉表示
2 个月前
Video-LLaVA是一个创新的多模态大语言模型,能够同时处理图像和视频,通过对齐和投影技术学习统一的视觉表示,在图像和视频理解任务上都展现出优秀的性能。
Video-LLaVA
视觉语言模型
多模态
视频理解
图像理解
Github
开源项目
2 个月前
相关项目
Video-LLaVA
Video-LLaVA项目提出了一种新的对齐方法,实现图像和视频统一视觉表示的学习。该模型在无图像-视频配对数据的情况下,展现出色的跨模态交互能力,同时提升图像和视频理解性能。研究显示多模态学习的互补性明显改善了模型在各类视觉任务上的表现,为视觉-语言模型开发提供新思路。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号