CogVideoX-2b项目介绍
CogVideoX-2b是一个开源的视频生成模型,源自于清影(QingYing)平台。作为入门级模型,它在兼容性和性能之间取得了良好的平衡,具有较低的运行和二次开发成本。
模型特点
-
推理精度: 推荐使用FP16精度,同时支持BF16、FP32、FP8、INT8等多种精度,但不支持INT4。
-
显存消耗:
- 使用SwissArmyTransformer(SAT)框架,FP16精度下需要18GB显存
- 使用diffusers框架,FP16精度下最低只需4GB显存
- 使用diffusers框架并量化为INT8,最低只需3.6GB显存
-
多GPU推理: 使用diffusers框架,FP16精度下每张GPU只需10GB显存
-
推理速度:
- 单张A100 GPU,约90秒生成一段视频
- 单张H100 GPU,约45秒生成一段视频
-
微调精度: 推荐使用FP16精度
-
微调显存消耗:
- LORA方式:单GPU 47GB(batch size=1),61GB(batch size=2)
- SFT方式:单GPU 62GB(batch size=1)
模型能力
-
提示词语言: 仅支持英语输入
-
提示词长度限制: 226 tokens
-
视频长度: 6秒
-
帧率: 8帧/秒
-
视频分辨率: 720 x 480,不支持其他分辨率(包括微调)
-
位置编码: 使用3d_sincos_pos_embed
快速开始
CogVideoX-2b支持使用Hugging Face的diffusers库进行部署。用户只需安装必要的依赖,即可通过简单的Python代码生成视频。
量化推理
模型支持使用PytorchAO和Optimum-quanto对文本编码器、Transformer和VAE模块进行量化,以降低内存需求。这使得模型可以在免费的T4 Colab或更小显存的GPU上运行。
探索更多
项目的GitHub仓库提供了更多技术细节、代码解释、提示词优化、SAT版本模型的推理和微调等内容。用户还可以找到CogVideoX工具链,以更好地使用模型。
许可证
CogVideoX-2B模型(包括其对应的Transformers模块和VAE模块)采用Apache 2.0许可证发布。
CogVideoX-2b作为一个强大而灵活的视频生成模型,为研究人员和开发者提供了丰富的可能性。无论是进行学术研究还是开发实际应用,CogVideoX-2b都是一个值得探索的优秀工具。