Open-Sora-Plan项目简介
Open-Sora-Plan是由北京大学-兔展AIGC联合实验室发起的开源项目,旨在复现OpenAI的Sora文本到视频生成模型。该项目希望通过开源社区的力量,构建一个简单可扩展的代码库,实现Sora的核心功能。
项目的主要特点包括:
- 完全开源,欢迎社区贡献
- 支持使用华为昇腾AI计算系统进行训练和推理
- 基于昇腾训练的模型可以输出业界水平的视频质量
- 采用3D全注意力架构,可以更好地捕捉时空特征
- 高性能的CausalVideoVAE,具有256倍的视频压缩率
- 支持文本到视频、图像到视频等多种任务
项目资源
代码仓库
GitHub: https://github.com/PKU-YuanGroup/Open-Sora-Plan
模型下载
最新的v1.2.0版本模型可以在Hugging Face上下载:
数据集
使用教程
环境配置
- 克隆代码仓库:
git clone https://github.com/PKU-YuanGroup/Open-Sora-Plan
cd Open-Sora-Plan
- 安装依赖:
conda create -n opensora python=3.8 -y
conda activate opensora
pip install -e .
推理
推荐配置:
--guidance_scale 7.5 --num_sampling_steps 100 --sample_method EulerAncestralDiscrete
单GPU推理:
bash scripts/text_condition/gpu/sample_t2v.sh
多GPU并行推理:
bash scripts/text_condition/gpu/sample_t2v_sp.sh
训练
文本到视频训练:
bash scripts/text_condition/gpu/train_t2v.sh
图像到视频训练:
bash scripts/text_condition/gpu/train_inpaint.sh
相关资源
Open-Sora-Plan是一个非常有前景的开源项目,欢迎感兴趣的开发者参与贡献,共同推进文本到视频生成技术的发展。如果您觉得该项目有帮助,可以在GitHub上给项目点个star支持一下!