Animate-A-Story: 基于检索增强视频生成的故事讲述
何颖清*, 夏梦涵*, 陈浩鑫*, 寸晓东, 龚远, 邢金博,
张勇#, 王鑫涛, 翁超, 单樱 和 陈启峰#
(* 第一作者, # 通讯作者)
🥳 演示
更多演示视频请查看项目主页。
🔆 摘要
简而言之:🤗🤗🤗 Animate-A-Story 是一种视频讲故事方法,可以合成高质量、结构可控和角色可控的视频。
为视觉故事讲述生成视频通常是一个繁琐复杂的过程,通常需要实景拍摄或图形动画渲染。为了绕过这些挑战,我们的核心思想是利用大量现有的视频片段,通过定制它们的外观来合成连贯的讲故事视频。我们通过开发一个由两个功能模块组成的框架来实现这一目标:(i) 运动结构检索,提供与查询文本描述的所需场景或运动上下文相匹配的视频候选;(ii) 结构引导的文本到视频合成,在运动结构和文本提示的引导下生成与情节相符的视频。对于第一个模块,我们利用现成的视频检索系统并提取视频深度作为运动结构。对于第二个模块,我们提出了一个可控的视频生成模型,提供对结构和角色的灵活控制。视频通过遵循结构指导和外观指令来合成。为确保跨片段的视觉一致性,我们提出了一种有效的概念个性化方法,允许通过文本提示指定所需的角色身份。我们的实验展示了所提出方法相比各种现有基线的显著优势。此外,对我们合成的讲故事视频进行的用户研究证明了我们框架的有效性,并表明了其在实际应用中的潜力。
😉 引用
@article{he2023animate,
title={Animate-a-story: Storytelling with retrieval-augmented video generation},
author={He, Yingqing and Xia, Menghan and Chen, Haoxin and Cun, Xiaodong and Gong, Yuan and Xing, Jinbo and Zhang, Yong and Wang, Xintao and Weng, Chao and Shan, Ying and others},
journal={arXiv preprint arXiv:2307.06940},
year={2023}
}