#长视频生成

TATS - 创新长视频生成框架基于时间无关VQGAN和时间敏感Transformer

TATS视频生成VQGANTransformer长视频生成Github开源项目

TATS项目是一个创新的长视频生成框架，通过结合时间无关的VQGAN和时间敏感的Transformer模型，实现了高效的长视频生成。该技术仅需使用数十帧视频进行训练，就能利用滑动窗口方法生成包含数千帧的连贯视频。TATS支持无条件生成以及基于文本、音频等条件的视频生成，为视频内容创作开辟了新的可能性。

StoryDiffusion - 实现长序列图像和视频的一致性生成

StoryDiffusionAI生成长序列图像生成长视频生成一致性自注意力Github开源项目

StoryDiffusion是一个专注于长序列图像和视频生成的AI项目。该项目采用一致性自注意力机制，实现角色连贯的图像生成，并通过运动预测器在压缩图像语义空间中预测条件图像间的运动。StoryDiffusion不仅能生成连贯的漫画，还可创作长时间、高质量的视频，为故事创作和视觉内容生成提供了新的技术方案。

StreamingT2V - 先进的长视频生成技术实现连贯动态和可扩展内容

StreamingT2V长视频生成文本到视频一致性动态视频Github开源项目

StreamingT2V是一种创新的自回归技术，专门用于生成长时间、连贯一致的视频内容。该技术无需分段处理即可创建动态丰富的视频，确保了时间上的连贯性，同时保持与文本描述的高度契合和单帧图像的优质表现。目前已实现生成1200帧（约2分钟）的视频，并具有进一步延长的潜力。值得注意的是，StreamingT2V的性能不局限于特定的文本到视频模型，这意味着随着基础模型的进步，视频质量有望进一步提升。

Gen-L-Video - 无需额外训练实现多文本条件长视频生成和编辑

Gen-L-Video长视频生成多文本条件视频编辑无需预训练Github开源项目

Gen-L-Video是一种扩展短视频扩散模型的视频生成方法,能实现多文本条件下的长视频生成和编辑。该方法无需额外训练即可处理数百帧的视频,并保持内容一致性。Gen-L-Video支持多语义段视频生成、平滑语义变化和视频内容编辑等功能,为长视频处理提供了一种通用解决方案。

VideoTetris - 创新视频生成技术实现复杂语义精确组合

VideoTetris文本到视频生成组合式生成时空组合扩散长视频生成Github开源项目

VideoTetris是一个视频生成框架，采用时空组合扩散技术实现复杂文本语义的精确表达。通过操控去噪网络的注意力图，在空间和时间维度上控制视频生成。项目提出了视频数据预处理方法，提升了训练数据的动态性和提示理解能力。VideoTetris可生成10秒至2分钟或更长的视频，为复杂场景视频生成提供了新方案。

相关文章

Article Cover

TATS: 一种突破性的长视频生成框架

Article Cover

Gen-L-Video: 革命性的多文本长视频生成技术

Article Cover

VideoTetris: 革新性的组合式文本到视频生成框架

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号