Logo

#长视频

MiraData:一个具有长时间视频和结构化标注的大规模视频数据集

2 个月前
Cover of MiraData:一个具有长时间视频和结构化标注的大规模视频数据集

UniAnimate: 突破性的统一视频扩散模型实现一致性人像动画生成

2 个月前
Cover of UniAnimate: 突破性的统一视频扩散模型实现一致性人像动画生成

MiniGPT4-video: 突破性的视频理解多模态大语言模型

2 个月前
Cover of MiniGPT4-video: 突破性的视频理解多模态大语言模型

MovieChat: 一款突破性的长视频理解AI系统

2 个月前
Cover of MovieChat: 一款突破性的长视频理解AI系统

相关项目

Project Cover
MovieChat
MovieChat能够在24GB显卡上处理超过1万帧的视频,与其他方法相比,GPU显存成本平均减少10000倍(21.3KB/f到约200MB/f)。它集成了视频问答、情感分析和场景理解等功能,显著提高了长视频处理的效率和准确性,适用于大型视频数据集和复杂视频场景的智能问答系统。
Project Cover
UniAnimate
UniAnimate是一个用于生成长时间人物视频的创新框架。它将参考图像、姿势指导和噪声视频映射到共同特征空间,并支持随机和首帧条件输入。该方法在评估中优于现有技术,可生成高度一致的一分钟视频,为人物图像动画带来新的可能。
Project Cover
MiniGPT4-video
MiniGPT4-Video项目采用交错视觉-文本标记技术,大幅提升了多模态大语言模型的视频理解能力。该模型在短视频理解方面表现优异,多项基准测试中均优于现有方法。项目还开发了Goldfish框架,专门应对任意长度视频的处理难题,有效解决了长视频理解中的噪声、冗余和计算挑战。这些创新成果为视频分析和理解领域开辟了新的可能性。
Project Cover
MiraData
MiraData是一个为长视频生成任务设计的大规模数据集。其特点包括平均72秒的视频长度和详细的结构化字幕。数据集提供330K、93K、42K和9K四个版本,每个视频配有六类字幕:主要对象、背景、风格、相机运动、简短摘要和详细描述。这些特性使MiraData成为改进长序列视频处理和镜头转换建模的重要资源。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号