热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#图像视频统一
Chat-UniVi:统一视觉表征赋能大语言模型理解图像和视频
2 个月前
Chat-UniVi是一个创新的统一视觉-语言模型,能够同时处理图像和视频理解任务。它采用动态视觉令牌的设计,实现了图像和视频的统一表示,在多项基准测试中展现出优异的性能。
Chat-UniVi
视觉理解
大语言模型
图像视频统一
多模态
Github
开源项目
2 个月前
相关项目
Chat-UniVi
Chat-UniVi是一个多模态AI模型,采用统一的视觉表示方法实现图像和视频的同步理解。该模型运用动态视觉令牌技术,有效捕捉图像空间细节和视频时序关系。经过联合训练,Chat-UniVi在图像和视频理解任务中表现优异,性能超过专门设计的单一模态模型。模型支持多轮对话,能处理包含多个图像或视频的复杂场景,为视觉AI研究提供新思路。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号