#图像视频统一

Chat-UniVi:统一视觉表征赋能大语言模型理解图像和视频

3 个月前

Chat-UniVi 视觉理解大语言模型图像视频统一多模态 Github 开源项目

3 个月前

相关项目

Chat-UniVi

Chat-UniVi是一个多模态AI模型，采用统一的视觉表示方法实现图像和视频的同步理解。该模型运用动态视觉令牌技术，有效捕捉图像空间细节和视频时序关系。经过联合训练，Chat-UniVi在图像和视频理解任务中表现优异，性能超过专门设计的单一模态模型。模型支持多轮对话，能处理包含多个图像或视频的复杂场景，为视觉AI研究提供新思路。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com