#CogVideoX

CogVideo入门指南-文本到视频生成的开源模型

2 个月前
Cover of CogVideo入门指南-文本到视频生成的开源模型

CogVideo: 开创性的大规模文本到视频生成模型

3 个月前
Cover of CogVideo: 开创性的大规模文本到视频生成模型
相关项目
Project Cover

CogVideo

CogVideoX和CogVideo通过大规模预训练模型和3D因果VAE技术,实现高质量的文本到视频生成。CogVideoX-2B可在单个3090 GPU上进行推理,生成效果几乎无损。提供详尽的快速入门指南、模型结构介绍和使用案例。探索CogVideoX和CogVideo在Huggingface、WeChat、Discord等平台上的应用,获取更多技术细节和更新。

Project Cover

CogVideoX-2b

CogVideoX-2B是一个基于扩散模型的开源视频生成工具。该模型可将文本描述转化为6秒长、720x480分辨率、8帧/秒的视频。其最低仅需4GB显存即可运行,通过INT8量化还可进一步降低资源消耗。作为入门级选择,CogVideoX-2B在性能和资源使用间取得平衡,适合进行二次开发。模型目前支持英文输入,并提供多种优化方案以提升推理速度和降低显存占用。

Project Cover

CogVideoX-5b

CogVideoX-5b是基于专家Transformer的文本到视频生成模型。它可生成6秒720x480分辨率、8帧/秒的视频,支持226个token的英文提示输入。模型采用BF16精度,推理VRAM消耗低至5GB。通过多项优化,CogVideoX-5b在保持视觉质量的同时提高了推理速度,为视频生成研究与应用提供了有力工具。

Project Cover

CogVideoX-5b-I2V

CogVideoX-5b-I2V是一个开源的图像到视频生成模型,参数规模为5B。该模型可生成6秒长、8帧/秒、720x480分辨率的视频,支持多种精度和量化推理。通过diffusers库可快速部署,单GPU运行时内存占用较低。模型提供量化推理功能,适用于小内存GPU,并可通过torch.compile加速。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号