#Chat-UniVi

Chat-UniVi:统一视觉表征赋能大语言模型理解图像和视频

2 个月前

Chat-UniVi 视觉理解大语言模型图像视频统一多模态 Github 开源项目

2 个月前

相关项目

Chat-UniVi

Chat-UniVi是一个多模态AI模型，采用统一的视觉表示方法实现图像和视频的同步理解。该模型运用动态视觉令牌技术，有效捕捉图像空间细节和视频时序关系。经过联合训练，Chat-UniVi在图像和视频理解任务中表现优异，性能超过专门设计的单一模态模型。模型支持多轮对话，能处理包含多个图像或视频的复杂场景，为视觉AI研究提供新思路。

Chat-UniVi

Chat-UniVi是一个创新的大语言模型框架，采用动态视觉令牌技术实现图像和视频的统一处理。通过混合数据集训练，模型可同时处理图像空间信息和视频时序关系，性能超越了单一模态的专用模型。该项目为多模态AI技术发展提供了新的解决方案。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com