MotionDirector: 一种定制化的文本到视频扩散模型运动控制方法

MotionDirector:定制化视频生成的新突破

在人工智能视频生成领域,如何让生成的视频具有特定的运动模式一直是一个挑战。近日,来自新加坡国立大学和字节跳动的研究人员提出了一种名为MotionDirector的创新方法,为这一问题提供了全新的解决思路。

MotionDirector是一种针对文本到视频扩散模型的运动定制化方法。它的核心思想是:给定一组具有相同运动概念的视频片段,MotionDirector可以学习并提取出这种运动的特征,然后将其应用到现有的文本到视频扩散模型中,从而生成包含该特定运动的全新视频。

MotionDirector示意图

这种方法的独特之处在于,它不仅可以学习简单的运动模式,还能捕捉复杂的摄影技巧,如推拉摇移等电影拍摄手法。这为AI视频创作开辟了新的可能性。

MotionDirector采用了一种双路径LoRA(Low-Rank Adaptation)架构,巧妙地将外观和运动的学习解耦。具体来说:

此外,研究人员还设计了一种新颖的外观去偏时间损失函数,以减少外观对时间训练目标的影响。这种设计使得MotionDirector能够更好地泛化学习到的运动概念,适用于各种不同的外观。

MotionDirector展现出了广泛的应用潜力,以下是几个典型的使用场景:

MotionDirector可以学习各种体育运动的动作,如举重、骑自行车、骑马等,然后将这些动作应用到全新的场景中。例如:

这种能力为体育教学、游戏开发等领域提供了丰富的创意素材。

MotionDirector能够学习并重现复杂的电影摄影技巧,如:

这些技巧可以应用于各种场景,如"消防员站在燃烧的森林前,使用Dolly Zoom拍摄"或"罗马士兵站在竞技场前,使用推镜头拍摄"等。这为业余创作者提供了专业级的摄影效果,大大提升了视频的艺术性。

MotionDirector的一个重要特性是能够同时定制视频的外观和运动。这意味着用户可以:

然后,MotionDirector可以将这两者结合,生成既有特定外观又有特定运动的视频。例如,用户可以将"兵马俑"的外观与"骑自行车"的动作结合,创作出"兵马俑骑自行车穿越古代战场"的奇特视频。

定制化外观与运动结果

想要尝试MotionDirector,用户需要按照以下步骤操作:

环境配置:
- 创建并激活conda环境
- 安装所需的Python包
- 下载基础模型权重(如ZeroScope)
- 下载预训练的MotionDirector权重
训练(可选):
- 准备训练数据(单个或多个视频)
- 修改配置文件
- 运行训练脚本
推理生成:
- 准备提示词
- 选择合适的预训练权重
- 运行推理脚本生成视频