Project Icon

KandinskyVideo

先进的开源文本到视频生成模型

KandinskyVideo 1.1是一个开源的文本到视频生成模型,在EvalCrafter基准测试中表现突出。该模型采用三阶段生成流程:初始帧生成、关键帧生成和帧插值,有效提高了视频质量和内容连贯性。除了支持文本到视频转换,KandinskyVideo 1.1还能为输入图像添加动画效果。在视觉质量、文本-视频对齐、动作质量和时间连贯性等方面,该模型都展现出优秀性能,体现了开源文本到视频生成技术的最新发展。

Kandinsky视频1.1 — 一种新的文本到视频生成模型

EvalCrafter基准测试中,开源解决方案中的最佳质量

本仓库是Kandinsky视频1.1模型的官方实现。

Hugging Face Spaces | Telegram机器人 | Habr文章 | 我们的文本到图像模型 | 项目页面

我们之前的模型Kandinsky视频1.0将视频生成过程分为两个阶段:首先以低帧率生成关键帧,然后在这些关键帧之间创建插值帧以提高帧率。在Kandinsky视频1.1中,我们进一步将关键帧生成分为两个额外步骤:首先使用文本到图像Kandinsky 3.0从文本提示生成视频的初始帧,然后基于文本提示和先前生成的第一帧生成后续关键帧。这种方法确保了帧之间内容的一致性,并显著提高了整体视频质量。此外,该方法还允许作为附加功能对任何输入图像进行动画处理。

流程


Kandinsky视频1.0中,编码的文本提示进入带有时间层或块的文本到视频U-Net3D关键帧生成模型,然后采样的潜在关键帧被发送到潜在插值模型以预测两个关键帧之间的三个插值帧。使用图像MoVQ-GAN解码器获得最终视频结果。在Kandinsky视频1.1中,文本到视频U-Net3D还受文本到图像U-Net2D的条件约束,这有助于提高内容质量。使用时间MoVQ-GAN解码器解码最终视频。

架构细节

  • 文本编码器(Flan-UL2) - 8.6B
  • 潜在扩散U-Net3D - 4.15B
  • 插值模型(潜在扩散U-Net3D) - 4.0B
  • 图像MoVQ编码器/解码器 - 256M
  • 视频(时间)MoVQ解码器 - 556M

使用方法

1. 文本到视频

from kandinsky_video import get_T2V_pipeline

device_map = 'cuda:0'
t2v_pipe = get_T2V_pipeline(device_map)

prompt = "一只戴着太阳镜在泳池当救生员的猫。"

fps = 'medium' # ['low', 'medium', 'high']
motion = 'high' # ['low', 'medium', 'high']

video = t2v_pipe(
    prompt,
    width=512, height=512, 
    fps=fps, 
    motion=motion,
    key_frame_guidance_scale=5.0,
    guidance_weight_prompt=5.0,
    guidance_weight_image=3.0,
)

path_to_save = f'./__assets__/video.gif'
video[0].save(
    path_to_save,
    save_all=True, append_images=video[1:], duration=int(5500/len(video)), loop=0
)


生成的视频

2. 图像到视频

from kandinsky_video import get_T2V_pipeline

device_map = 'cuda:0'
t2v_pipe = get_T2V_pipeline(device_map)

from PIL import Image
import requests
from io import BytesIO

url = 'https://yellow-cdn.veclightyear.com/0a4dffa0/9d9d2083-7713-4e99-beff-f03f4af82915.jpg'
response = requests.get(url)
img = Image.open(BytesIO(response.content))
img.show()

prompt = "一只熊猫爬上树。"

fps = 'medium' # ['low', 'medium', 'high']
motion = 'medium' # ['low', 'medium', 'high']

video = t2v_pipe(
    prompt,
    image=img,
    width=640, height=384, 
    fps=fps, 
    motion=motion,
    key_frame_guidance_scale=5.0,
    guidance_weight_prompt=5.0,
    guidance_weight_image=3.0,
)

path_to_save = f'./__assets__/video2.gif'
video[0].save(
    path_to_save,
    save_all=True, append_images=video[1:], duration=int(5500/len(video)), loop=0
)


输入图像。


生成的视频。

运动分数和噪声增强条件


基于不同运动分数和噪声增强水平的生成变化。横轴显示噪声增强水平(NA),纵轴显示运动分数(MS)。

结果


Kandinsky Video 1.1在EvalCrafter文本到视频基准测试中总体排名第二,是最佳开源模型。VQ:视觉质量,TVA:文本-视频对齐度,MQ:运动质量,TC:时间一致性,FAS:最终平均分。


多边形雷达图展示Kandinsky Video 1.1在EvalCrafter基准测试中的表现。


人工评估研究结果。图中的条形对应于模型生成的并排比较中"获胜"的百分比。我们将我们的模型与Video LDM进行了比较。

作者

BibTeX

如果您在研究中使用我们的工作,请引用我们的出版物:

@article{arkhipkin2023fusionframes,
  title     = {FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline},
  author    = {Arkhipkin, Vladimir and Shaheen, Zein and Vasilev, Viacheslav and Dakhova, Elizaveta and Kuznetsov, Andrey and Dimitrov, Denis},
  journal   = {arXiv preprint arXiv:2311.13073},
  year      = {2023}, 
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号