Project Icon

KandinskyVideo

先进的开源文本到视频生成模型

KandinskyVideo 1.1是一个开源的文本到视频生成模型,在EvalCrafter基准测试中表现突出。该模型采用三阶段生成流程:初始帧生成、关键帧生成和帧插值,有效提高了视频质量和内容连贯性。除了支持文本到视频转换,KandinskyVideo 1.1还能为输入图像添加动画效果。在视觉质量、文本-视频对齐、动作质量和时间连贯性等方面,该模型都展现出优秀性能,体现了开源文本到视频生成技术的最新发展。

Kandinsky视频1.1 — 一种新的文本到视频生成模型

EvalCrafter基准测试中,开源解决方案中的最佳质量

本仓库是Kandinsky视频1.1模型的官方实现。

Hugging Face Spaces | Telegram机器人 | Habr文章 | 我们的文本到图像模型 | 项目页面

我们之前的模型Kandinsky视频1.0将视频生成过程分为两个阶段:首先以低帧率生成关键帧,然后在这些关键帧之间创建插值帧以提高帧率。在Kandinsky视频1.1中,我们进一步将关键帧生成分为两个额外步骤:首先使用文本到图像Kandinsky 3.0从文本提示生成视频的初始帧,然后基于文本提示和先前生成的第一帧生成后续关键帧。这种方法确保了帧之间内容的一致性,并显著提高了整体视频质量。此外,该方法还允许作为附加功能对任何输入图像进行动画处理。

流程


Kandinsky视频1.0中,编码的文本提示进入带有时间层或块的文本到视频U-Net3D关键帧生成模型,然后采样的潜在关键帧被发送到潜在插值模型以预测两个关键帧之间的三个插值帧。使用图像MoVQ-GAN解码器获得最终视频结果。在Kandinsky视频1.1中,文本到视频U-Net3D还受文本到图像U-Net2D的条件约束,这有助于提高内容质量。使用时间MoVQ-GAN解码器解码最终视频。

架构细节

  • 文本编码器(Flan-UL2) - 8.6B
  • 潜在扩散U-Net3D - 4.15B
  • 插值模型(潜在扩散U-Net3D) - 4.0B
  • 图像MoVQ编码器/解码器 - 256M
  • 视频(时间)MoVQ解码器 - 556M

使用方法

1. 文本到视频

from kandinsky_video import get_T2V_pipeline

device_map = 'cuda:0'
t2v_pipe = get_T2V_pipeline(device_map)

prompt = "一只戴着太阳镜在泳池当救生员的猫。"

fps = 'medium' # ['low', 'medium', 'high']
motion = 'high' # ['low', 'medium', 'high']

video = t2v_pipe(
    prompt,
    width=512, height=512, 
    fps=fps, 
    motion=motion,
    key_frame_guidance_scale=5.0,
    guidance_weight_prompt=5.0,
    guidance_weight_image=3.0,
)

path_to_save = f'./__assets__/video.gif'
video[0].save(
    path_to_save,
    save_all=True, append_images=video[1:], duration=int(5500/len(video)), loop=0
)


生成的视频

2. 图像到视频

from kandinsky_video import get_T2V_pipeline

device_map = 'cuda:0'
t2v_pipe = get_T2V_pipeline(device_map)

from PIL import Image
import requests
from io import BytesIO

url = 'https://yellow-cdn.veclightyear.com/0a4dffa0/9d9d2083-7713-4e99-beff-f03f4af82915.jpg'
response = requests.get(url)
img = Image.open(BytesIO(response.content))
img.show()

prompt = "一只熊猫爬上树。"

fps = 'medium' # ['low', 'medium', 'high']
motion = 'medium' # ['low', 'medium', 'high']

video = t2v_pipe(
    prompt,
    image=img,
    width=640, height=384, 
    fps=fps, 
    motion=motion,
    key_frame_guidance_scale=5.0,
    guidance_weight_prompt=5.0,
    guidance_weight_image=3.0,
)

path_to_save = f'./__assets__/video2.gif'
video[0].save(
    path_to_save,
    save_all=True, append_images=video[1:], duration=int(5500/len(video)), loop=0
)


输入图像。


生成的视频。

运动分数和噪声增强条件


基于不同运动分数和噪声增强水平的生成变化。横轴显示噪声增强水平(NA),纵轴显示运动分数(MS)。

结果


Kandinsky Video 1.1在EvalCrafter文本到视频基准测试中总体排名第二,是最佳开源模型。VQ:视觉质量,TVA:文本-视频对齐度,MQ:运动质量,TC:时间一致性,FAS:最终平均分。


多边形雷达图展示Kandinsky Video 1.1在EvalCrafter基准测试中的表现。


人工评估研究结果。图中的条形对应于模型生成的并排比较中"获胜"的百分比。我们将我们的模型与Video LDM进行了比较。

作者

BibTeX

如果您在研究中使用我们的工作,请引用我们的出版物:

@article{arkhipkin2023fusionframes,
  title     = {FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline},
  author    = {Arkhipkin, Vladimir and Shaheen, Zein and Vasilev, Viacheslav and Dakhova, Elizaveta and Kuznetsov, Andrey and Dimitrov, Denis},
  journal   = {arXiv preprint arXiv:2311.13073},
  year      = {2023}, 
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号