📷 EasyAnimate | 高分辨率和长视频生成的端到端解决方案

😊 EasyAnimate 是一个用于生成高分辨率和长视频的端到端解决方案。我们可以训练基于 transformer 的扩散生成器，训练用于处理长视频的 VAE，以及预处理元数据。

😊 基于类似 Sora 的结构和 DIT，我们使用 transformer 作为视频生成的扩散器。我们基于动作模块、u-vit 和 slice-vae 构建了 easyanimate。未来，我们将尝试更多的训练方案来改进效果。

😊 欢迎使用！

English | 简体中文

简介

EasyAnimate 是一个基于 transformer 架构的管道，可用于生成 AI 照片和视频，训练 Diffusion Transformer 的基线模型和 Lora 模型。我们支持直接从预训练的 EasyAnimate 模型进行预测，生成不同分辨率的视频，24 fps 的 6 秒视频（1 ~ 144 帧，未来我们将支持更长的视频）。我们还支持用户训练自己的基线模型和 Lora 模型来执行特定的风格转换。

我们将支持从不同平台快速启动，请参考快速开始。

快速开始

1. 云端使用：AliyunDSW/Docker

a. 从 AliyunDSW

DSW 有免费的 GPU 时间，用户可以申请一次，申请后 3 个月内有效。

阿里云在 Freetier 提供免费 GPU 时间，获取后在阿里云 PAI-DSW 中使用，5 分钟内即可启动 EasyAnimate！

b. 从 ComfyUI

我们的 ComfyUI 如下，详情请参考 ComfyUI README。工作流图

c. 从 docker

如果您使用 docker，请确保您的机器上已正确安装显卡驱动和 CUDA 环境。

然后按以下方式执行命令：

EasyAnimateV3:

# 拉取镜像
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# 进入镜像
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# 克隆代码
git clone https://github.com/aigc-apps/EasyAnimate.git

# 进入 EasyAnimate 目录
cd EasyAnimate

# 下载权重
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model

wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV3-XL-2-InP-512x512.tar -O models/Diffusion_Transformer/EasyAnimateV3-XL-2-InP-512x512.tar
cd models/Diffusion_Transformer/
tar -xvf EasyAnimateV3-XL-2-InP-512x512.tar
cd ../../

<details>
  <summary>（已过时）EasyAnimateV2:</summary>

拉取镜像

docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

进入镜像

docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

克隆代码

git clone https://github.com/aigc-apps/EasyAnimate.git

进入EasyAnimate目录

cd EasyAnimate

下载权重

mkdir models/Diffusion_Transformer mkdir models/Motion_Module mkdir models/Personalized_Model

wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV2-XL-2-512x512.tar -O models/Diffusion_Transformer/EasyAnimateV2-XL-2-512x512.tar

cd models/Diffusion_Transformer/ tar -xvf EasyAnimateV2-XL-2-512x512.tar cd ../../

</details>

<details>
  <summary>（已过时）EasyAnimateV1:</summary>

拉取镜像

docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

进入镜像

docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

克隆代码

git clone https://github.com/aigc-apps/EasyAnimate.git

进入EasyAnimate目录

cd EasyAnimate

下载权重

mkdir models/Diffusion_Transformer mkdir models/Motion_Module mkdir models/Personalized_Model

wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV3-XL-2-InP-512x512.tar -O models/Diffusion_Transformer/EasyAnimateV3-XL-2-InP-512x512.tar wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV3-XL-2-InP-768x768.tar -O models/Diffusion_Transformer/EasyAnimateV3-XL-2-InP-768x768.tar wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV3-XL-2-InP-960x960.tar -O models/Diffusion_Transformer/EasyAnimateV3-XL-2-InP-960x960.tar

cd models/Diffusion_Transformer/ tar -xvf EasyAnimateV3-XL-2-InP-512x512.tar tar -xvf EasyAnimateV3-XL-2-InP-768x768.tar tar -xvf EasyAnimateV3-XL-2-InP-960x960.tar cd ../../

</details>

### 2. 本地安装：环境检查/下载/安装
#### a. 环境检查
我们已在以下环境中验证了EasyAnimate的执行:

Linux详细信息:
- 操作系统: Ubuntu 20.04, CentOS
- Python版本: py3.10 & py3.11
- PyTorch版本: torch2.2.0
- CUDA版本: 11.8
- CUDNN版本: 8+
- GPU型号: Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

我们需要大约60GB的可用磁盘空间（用于保存权重文件），请检查确认!

不同显存可以生成的视频大小包括:
| GPU显存 | 384x672x72 | 384x672x144 | 576x1008x72 | 576x1008x144 | 720x1280x72 | 720x1280x144 |
|----------|----------|----------|----------|----------|----------|----------|
| 12GB | ⭕️ | ⭕️ | ⭕️ | ⭕️ | ❌ | ❌ |
| 16GB | ✅ | ✅ | ⭕️ | ⭕️ | ⭕️ | ❌ |
| 24GB | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |
| 40GB | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 80GB | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |

✅ 表示可以在low_gpu_memory_mode=False下运行，⭕️ 表示可以在low_gpu_memory_mode=True下运行，❌ 表示无法运行。当low_gpu_memory_mode=True时，运行速度会较慢。GPU需要支持bfloat16预测。

#### b. 权重
我们最好将[权重](#model-zoo)放置在指定路径:

EasyAnimateV3:

📦 models/ ├── 📂 Diffusion_Transformer/ │ └── 📂 EasyAnimateV3-XL-2-InP-512x512/ ├── 📂 Personalized_Model/ │ └── 你训练的trainformer模型 / 你训练的lora模型 (用于UI加载)


<details>
  <summary>（已过时）EasyAnimateV2:</summary>

📦 models/ ├── 📂 Diffusion_Transformer/ │ └── 📂 EasyAnimateV2-XL-2-512x512/ ├── 📂 Personalized_Model/ │ └── 你训练的trainformer模型 / 你训练的lora模型 (用于UI加载)

</details>

<details>
  <summary>（已过时）EasyAnimateV1:</summary>

📦 models/ ├── 📂 Diffusion_Transformer/ │ └── 📂 PixArt-XL-2-512x512/ ├── 📂 Motion_Module/ │ └── 📄 easyanimate_v1_mm.safetensors ├── 📂 Personalized_Model/ │ ├── 📄 easyanimate_portrait.safetensors │ └── 📄 easyanimate_portrait_lora.safetensors

</details>

# 如何使用

<h3 id="video-gen">1. 推理 </h3>
#### a. 使用Python代码
- 步骤1：下载相应的[权重](#model-zoo)并将其放置在models文件夹中。
- 步骤2：在predict_t2v.py文件中修改prompt、neg_prompt、guidance_scale和seed。
- 步骤3：运行predict_t2v.py文件，等待生成结果，并将结果保存在samples/easyanimate-videos文件夹中。
- 步骤4：如果您想将其他已训练的主干网络与Lora结合使用，请根据情况修改predict_t2v.py中的predict_t2v.py和Lora_path。

#### b. 使用webui
- 步骤1：下载相应的[权重](#model-zoo)并将其放置在models文件夹中。
- 步骤2：运行app.py文件以进入图形界面。
- 步骤3：根据页面选择生成模型，填写prompt、neg_prompt、guidance_scale和seed，点击生成，等待生成结果，并将结果保存在samples文件夹中。

### 2. 模型训练
完整的EasyAnimate训练流程应包括数据预处理、Video VAE训练和Video DiT训练。其中，Video VAE训练是可选的，因为我们已经提供了预训练的Video VAE。

<h4 id="data-preprocess">a. 数据预处理</h4>

我们提供了一个通过图像数据训练Lora模型的简单演示，详情可以在[wiki](https://github.com/aigc-apps/EasyAnimate/wiki/Training-Lora)中查看。

长视频分割、清洗和描述的完整数据预处理链接可以参考视频字幕部分的[README](./easyanimate/video_caption/README.md)。

如果您想训练文本到图像和视频生成模型，需要按以下格式安排数据集：

📦 project/ ├── 📂 datasets/ │ ├── 📂 internal_datasets/ │ ├── 📂 videos/ │ │ ├── 📄 00000001.mp4 │ │ ├── 📄 00000001.jpg │ │ └── 📄 ..... │ └── 📄 json_of_internal_datasets.json


json_of_internal_datasets.json是一个标准的JSON文件。json中的file_path可以设置为相对路径，如下所示：
```json
[
    {
      "file_path": "videos/00000001.mp4",
      "text": "一群穿着西装戴着墨镜的年轻人正在城市街道上行走。",
      "type": "video"
    },
    {
      "file_path": "train/00000001.jpg",
      "text": "一群穿着西装戴着墨镜的年轻人正在城市街道上行走。",
      "type": "image"
    },
    .....
]

您也可以将路径设置为绝对路径，如下所示：

[
    {
      "file_path": "/mnt/data/videos/00000001.mp4",
      "text": "一群穿着西装戴着墨镜的年轻人正在城市街道上行走。",
      "type": "video"
    },
    {
      "file_path": "/mnt/data/train/00000001.jpg",
      "text": "一群穿着西装戴着墨镜的年轻人正在城市街道上行走。",
      "type": "image"
    },
    .....
]

b. Video VAE训练（可选）

Video VAE训练是一个可选选项，因为我们已经提供了预训练的Video VAE。如果您想训练video vae，可以参考video vae部分的README。

c. Video DiT训练

如果数据预处理时数据格式为相对路径，请将scripts/train.sh设置如下：

export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

如果数据预处理时数据格式为绝对路径，请将scripts/train.sh设置如下：

export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"

然后，我们运行scripts/train.sh。

sh scripts/train.sh

（已过时）EasyAnimateV1：

如果您想训练EasyAnimateV1，请切换到git分支v1。

模型库

EasyAnimateV3:

名称	类型	存储空间	链接	Hugging Face	描述
EasyAnimateV3-XL-2-InP-512x512.tar	EasyAnimateV3	18.2GB	下载	🤗链接	EasyAnimateV3用于512x512文本和图像到视频分辨率的官方权重。使用144帧和24fps进行训练
EasyAnimateV3-XL-2-InP-768x768.tar	EasyAnimateV3	18.2GB	下载	🤗链接	EasyAnimateV3用于768x768文本和图像到视频分辨率的官方权重。使用144帧和24fps进行训练
EasyAnimateV3-XL-2-InP-960x960.tar	EasyAnimateV3	18.2GB	下载	🤗链接	EasyAnimateV3用于960x960文本和图像到视频分辨率的官方权重。使用144帧和24fps进行训练

（已过时）EasyAnimateV2：

| 名称 | 类型 | 存储空间 | 链接 | Hugging Face | 描述 | |--|--|--|--|--|--| | EasyAnimateV2-XL-2-512x512.tar | EasyAnimateV2 | 16.2GB | [下载](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV2-XL-2-512x512.tar) | [🤗链接](https://huggingface.co/alibaba-pai/EasyAnimateV2-XL-2-512x512) | EasyAnimateV2 512x512分辨率的官方权重。使用144帧和24帧率训练 | | EasyAnimateV2-XL-2-768x768.tar | EasyAnimateV2 | 16.2GB | [下载](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV2-XL-2-768x768.tar) | [🤗链接](https://huggingface.co/alibaba-pai/EasyAnimateV2-XL-2-768x768) | EasyAnimateV2 768x768分辨率的官方权重。使用144帧和24帧率训练 | | easyanimatev2_minimalism_lora.safetensors | Pixart的Lora | 485.1MB | [下载](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Personalized_Model/easyanimatev2_minimalism_lora.safetensors) | - | 使用特定类型图像训练的lora。图像可从[此链接](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/asset/v2/Minimalism.zip)下载。 |

（已过时）EasyAnimateV1：

1、运动权重

名称	类型	存储空间	链接	描述
easyanimate_v1_mm.safetensors	运动模块	4.1GB	下载	使用80帧和12帧率训练

2、其他权重

名称	类型	存储空间	链接	描述
PixArt-XL-2-512x512.tar	Pixart	11.4GB	下载	Pixart-Alpha官方权重
easyanimate_portrait.safetensors	Pixart的检查点	2.3GB	下载	使用内部人像数据集训练
easyanimate_portrait_lora.safetensors	Pixart的Lora	654.0MB	下载	使用内部人像数据集训练