AUTOMATIC1111 的 StableDiffusion WebUI 的 text2video 插件

警告：截至 2023-11-21 该插件不再维护。如果你想继续开发/重制它，请通过 Discord 联系我 @kabachuha（你也可以在 camenduru 的服务器的 text2video 频道找到我），我们会一起解决。

~~从 2023-11-21 开始由 Deforum-art 维护~~

再次由我维护

Auto1111 插件实现了多种 text2video 模型，如 ModelScope 和 VideoCrafter，仅使用 Auto1111 webui 依赖项和可下载的模型（因此无需登录）。

系统要求

ModelScope

显存 6 GB 应该足以在 256x256 的低显存 VAE 模式下在 GPU 上运行（我们已经收到有人在 4gbs 显存的情况下启用 192x192 视频的报告）。显存 12GB 的 NVIDIA GeForce RTX 2080 Ti 能够处理 24 帧长的 256x256 视频，如果你的显卡支持 Torch2 注意力优化，你可以在同样的 12GB 显存内设置 125 帧（8 秒）长的视频！在同样条件下，250 帧（16 秒）需要 20 GB 显存。

提示词：最佳质量，动漫女孩跳舞

https://user-images.githubusercontent.com/14872007/232229730-82df36cc-ac8b-46b3-949d-0e1dfc10a975.mp4

我们非常欢迎任何与该插件相关的帮助，特别是 pull-request。

LoRA 支持

目前支持使用这个 finetune 仓库训练的 LoRA。请按照那里的说明进行训练。 https://github.com/ExponentialML/Text-To-Video-Finetuning#updates

训练完成后，只需将它们放置在 webui 安装定义的默认 LoRA 目录中即可。

VideoCrafter（WIP，需要更多开发者来妥善维护）

在默认设置下，VideoCrafter 运行大约需要 9.2 GB 显存。

主要版本更新

2023-03-27 更新：VAE 设置和“将模型保留在显存中”移至 'ModelScopeTxt2Vid' 下的一般 webui 设置。

2023-03-26 更新：提示词权重实现！（截至 2023-04-05，仅 ModelScope）

2023-04-05 更新：增加 VideoCrafter 支持，将插件重命名为 sd-webui-text2video

2023-04-13 更新：in-framing/in-painting 支持：可以将现有图片动画化，甚至无缝循环视频！

2023-04-15 更新：MEGA-UPDATE：Torch2/xformers 优化，可以在 12GB 显存上制作 125 帧长视频。如果选中 keep_pipe_in_vram，则不会离线 CPU。

2023-04-16 更新：WebAPI 可用！

2023-07-02 更新：其他采样器，模型热切换。

测试示例：

ModelScope

提示词：电影风格爆炸，by greg rutkowski

https://user-images.githubusercontent.com/14872007/226345611-a1f0601f-db32-41bd-b983-80d363eca4d5.mp4

提示词：非常吸引人的动漫女孩滑冰，by makoto shinkai，电影灯光

https://user-images.githubusercontent.com/14872007/226468406-ce43fa0c-35f2-4625-a892-9fb3411d96bb.mp4

'续接'现有图片

提示词：最佳质量，宇航员狗

https://user-images.githubusercontent.com/14872007/232073361-bdb87a47-85ec-44d8-9dc4-40dab0bd0555.mp4

提示词：爆炸

https://user-images.githubusercontent.com/14872007/232073687-b7e78b06-182b-4ce6-b565-d6738c4890d1.mp4

视频补帧和循环

提示词：核爆炸

https://user-images.githubusercontent.com/14872007/232073842-84860a3e-fa82-43a6-a411-5cfc509b5355.mp4

提示词：最佳质量，很多奶酪

https://user-images.githubusercontent.com/14872007/232073876-16895cae-0f26-41bc-a575-0c811219cf88.mp4

VideoCrafter

提示词：动漫 1 女孩，灵梦，东方

https://user-images.githubusercontent.com/14872007/230231253-2fd9b7af-3f05-41c8-8c92-51042b269116.mp4

获取权重的方法

ModelScope

从原始 HuggingFace 仓库下载以下文件。或者，下载半精度 fp16 剔除权重（更小，加载时占用较少的显存）：

VQGAN_autoencoder.pth
configuration.json
open_clip_pytorch_model.bin
text2video_pytorch_model.pth

并将它们放在 stable-diffusion-webui/models/ModelScope/t2v 目录中。如果缺少这些文件夹，请自行创建。

VideoCrafter

通过此链接下载预训练 T2V 模型或下载剔除的半精度权重，并将 model.ckpt 放在 models/VideoCrafter/model.ckpt 目录中。

细调模型及其使用方法

感谢 https://github.com/ExponentialML/Text-To-Video-Finetuning，你可以细调你的模型！

要在这里利用细调模型，请使用此脚本，该脚本将转换该仓库输出的 Diffusers 格式模型为原始权重格式。

突出的细调模型

ZeroScope v2

由 @cerspense 在高质量的 YouTube 视频上训练。下载文件夹中名为 zs2_XL 的文件 cerspense/zeroscope_v2_XL 然后从任何其他 ModelScope 模型中添加缺少的 VQGAN_autoencoder.pth 和 configuration.json。

https://github.com/kabachuha/sd-webui-text2video/assets/14872007/6fa39221-3608-415e-b8ce-04a2bad11d30

Potat1

Potat1 是一个基于 ModelScope 的模型，由 @camenduru 在 2197 个分辨率为 1024x576 的剪辑上训练，这使它成为第一个开源的高分辨率 text2video 模型。

https://github.com/kabachuha/sd-webui-text2video/assets/14872007/ff01c6cb-0000-40a2-ac7e-ec3edc5f9713

要下载此插件的即插即用权重，请使用此链接：https://huggingface.co/kabachuha/potat1-with-text-encoder-original-format。

Animov-0.1

由 strangeman3107 提供的 Animov-0.1。该模型的转换权重位于这里。

https://user-images.githubusercontent.com/14872007/232611542-600cec38-d944-4530-bc5c-3595a115c2be.mp4