#CogVideoX

CogVideo - 开源视频生成模型，支持高效单GPU推理

CogVideoX视频生成ICLR'23开源项目文本到视频Github

CogVideoX和CogVideo通过大规模预训练模型和3D因果VAE技术，实现高质量的文本到视频生成。CogVideoX-2B可在单个3090 GPU上进行推理，生成效果几乎无损。提供详尽的快速入门指南、模型结构介绍和使用案例。探索CogVideoX和CogVideo在Huggingface、WeChat、Discord等平台上的应用，获取更多技术细节和更新。

CogVideoX-2b - 轻量级开源视频生成模型支持低显存推理

CogVideoX视频生成文本到视频扩散模型人工智能Github开源项目Huggingface模型

CogVideoX-2B是一个基于扩散模型的开源视频生成工具。该模型可将文本描述转化为6秒长、720x480分辨率、8帧/秒的视频。其最低仅需4GB显存即可运行，通过INT8量化还可进一步降低资源消耗。作为入门级选择，CogVideoX-2B在性能和资源使用间取得平衡，适合进行二次开发。模型目前支持英文输入，并提供多种优化方案以提升推理速度和降低显存占用。

CogVideoX-5b - 专家Transformer驱动的先进文本到视频生成模型

模型Github开源项目Huggingface扩散模型CogVideoX视频生成文本到视频人工智能

CogVideoX-5b是基于专家Transformer的文本到视频生成模型。它可生成6秒720x480分辨率、8帧/秒的视频,支持226个token的英文提示输入。模型采用BF16精度,推理VRAM消耗低至5GB。通过多项优化,CogVideoX-5b在保持视觉质量的同时提高了推理速度,为视频生成研究与应用提供了有力工具。

CogVideoX-5b-I2V - 开源图像到视频生成模型支持多种精度和量化推理

模型视频生成图像到视频GithubAI模型深度学习CogVideoXHuggingface开源项目

CogVideoX-5b-I2V是一个开源的图像到视频生成模型，参数规模为5B。该模型可生成6秒长、8帧/秒、720x480分辨率的视频，支持多种精度和量化推理。通过diffusers库可快速部署，单GPU运行时内存占用较低。模型提供量化推理功能，适用于小内存GPU，并可通过torch.compile加速。

相关文章

Article Cover

CogVideo: 开创性的大规模文本到视频生成模型

Article Cover

CogVideo入门指南-文本到视频生成的开源模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号