CV-VAE

兼容预训练模型的视频生成技术

CV-VAE是一种视频变分自编码器，专为潜在生成视频模型设计。它与预训练图像和视频模型（如SD 2.1和SVD）兼容，用于视频重建和生成。项目提供代码实现和预训练模型权重，支持视频重建和文本到视频转换。CV-VAE为视频生成技术研究提供了新的工具和方向。

访问官网

CVPR23_LFDM - 潜在流扩散模型实现条件图像到视频生成

GithubLFDM图像到视频生成开源项目条件生成深度学习潜在流扩散模型

CVPR23_LFDM项目提出了一种基于潜在流扩散模型的条件图像到视频生成方法。该方法在MUG、MHAD和NATOPS数据集上展示了生成流畅自然的人脸表情和人体动作视频的能力。项目开源了预训练模型、演示代码和详细的模型训练流程，为计算机视觉研究提供了有价值的资源。

magvit - 单模型实现多种视频合成任务的创新技术

GithubMAGVIT开源项目机器学习深度学习视频生成计算机视觉

MAGVIT是一种创新的视频生成技术，采用掩码生成视频变换器实现单一模型解决多种视频合成任务。该项目在视频生成质量、效率和灵活性方面表现出色，能够执行类别条件生成、帧预测和多任务视频处理。MAGVIT在UCF-101、BAIR Robot Pushing、Kinetics-600等多个基准测试中取得优异成绩，展示了其在视频生成领域的应用前景。

sd-vae-ft-mse - 改进稳定扩散自编码器提升图像重建效果

GithubHuggingfaceStable Diffusion图像生成开源项目模型模型微调深度学习自动编码器

sd-vae-ft-mse是一款经过微调的稳定扩散自编码器，在LAION-Aesthetics和LAION-Humans数据集上训练。该模型旨在提高图像重建质量，尤其是人脸细节。相比原始模型，它在PSNR和SSIM等指标上有明显提升，能够生成更平滑的图像。该模型可作为VAE组件轻松集成到现有的diffusers工作流中，用于稳定扩散图像生成。

jepa - 先进的自监督视频表征学习方法

GithubV-JEPA开源项目特征预测自监督学习视觉表示视频处理

V-JEPA是一种创新的视频联合嵌入预测架构，专为自监督学习而设计。该方法仅通过观察VideoMix2M数据集的视频像素进行训练，不依赖预训练图像编码器、文本信息、负样本、人工标注或像素级重建。V-JEPA生成的视觉表征具有多功能性，能够在各种下游视频和图像任务中实现优异性能，无需对模型参数进行微调。其特征预测展现出良好的时空一致性，并可通过条件扩散模型转化为可解释的像素表示。

magvit2-pytorch - MagViT2视频生成和理解模型的PyTorch开源实现

AI模型GithubMagViT2Pytorch实现开源项目视频生成语言模型

Gen-L-Video - 无需额外训练实现多文本条件长视频生成和编辑

Gen-L-VideoGithub多文本条件开源项目无需预训练视频编辑长视频生成

Gen-L-Video是一种扩展短视频扩散模型的视频生成方法,能实现多文本条件下的长视频生成和编辑。该方法无需额外训练即可处理数百帧的视频,并保持内容一致性。Gen-L-Video支持多语义段视频生成、平滑语义变化和视频内容编辑等功能,为长视频处理提供了一种通用解决方案。

TATS - 创新长视频生成框架基于时间无关VQGAN和时间敏感Transformer

GithubTATSTransformerVQGAN开源项目视频生成长视频生成

TATS项目是一个创新的长视频生成框架，通过结合时间无关的VQGAN和时间敏感的Transformer模型，实现了高效的长视频生成。该技术仅需使用数十帧视频进行训练，就能利用滑动窗口方法生成包含数千帧的连贯视频。TATS支持无条件生成以及基于文本、音频等条件的视频生成，为视频内容创作开辟了新的可能性。

Latte - 创新的潜在扩散Transformer视频生成技术

AI模型GithubLatteTransformer开源项目深度学习视频生成

Latte是一种新型视频生成模型，采用潜在扩散Transformer技术。该模型在多个标准数据集上表现优异，并支持文本到视频的生成。项目提供PyTorch实现、预训练模型和相关代码，为视频生成研究提供了重要参考。Latte在建模视频分布方面采用了创新方法，为未来研究提供了新的思路。

VideoBooth - 基于图像提示的AI视频生成新突破

GithubVideoBooth人工智能图像提示开源项目扩散模型视频生成

VideoBooth是一个AI视频生成项目，利用扩散模型技术基于图像提示创建视频。该项目将静态图像主体转化为动态视频，实现图像到视频的转换。VideoBooth采用两阶段训练方法，提供安装、推理和训练指南。项目还公开了专门数据集，为研究提供资源。

RAVE - 基于扩散模型的高效视频编辑技术

CVPRGithubRAVE开源项目扩散模型视频编辑零样本

RAVE是一种基于预训练文本到图像扩散模型的视频编辑技术，无需额外训练即可实现高质量视频编辑。通过创新的噪声重排策略，RAVE提高了视频的时间一致性和处理效率。它支持从局部属性调整到形状变换等多种编辑类型，并可处理任意长度的视频。在多种编辑场景中，RAVE展现出优于现有方法的性能，为视频创作提供了高效灵活的解决方案。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com