#文本到视频

Runway Gen-2 - 使用文本、图像或视频剪辑生成新颖的视频
热门AI开发模型训练AI工具多模态AI系统视频生成Gen-1文本到视频图像到视频
Runway Research的Gen-2系统是一款前沿的AI视频创作工具,能够仅通过文本、图像或视频片段来生成全新视频。该系统不仅支持文本到视频的转换,还能进行图像到视频的多样化合成,无需实际摄制即可制作电影级视频。可广泛应用于电影预告片制作、品牌广告创意展示等领域,特别适合广告、电影制作和个性化内容创建。此外,其易用性和用户友好性,使得任何人都可以轻松创建专业级视频内容。
Typeframes - AI 视频生成
热门AI视频视频生成AI工具TypeframesAI视频创作社交媒体视频视频编辑文本到视频
Typeframes通过AI技术,迅速将文本转化为高品质视频。它支持多种定制模板,适用于YouTube、Instagram和TikTok等平台,帮助内容创作者提升制作效率和视频品质,加速商业增长。
Awesome-AITools - 集合人工智能相关工具的超级资源库
ChatGPTAI生成音乐文本到视频开源LLMs语音识别Github开源项目
Awesome-AITools是一个收集了各类人工智能相关工具的综合资源平台,覆盖编程开发、图像创作、语音识别等多种应用。用户可以快速找到适应不同场景的AI工具,从开发和研究到日常使用,都能获得强大支持。特色包括开源共享、资源丰富、持续更新及社区支持。
CogVideo - 开源视频生成模型,支持高效单GPU推理
CogVideoX视频生成ICLR'23开源项目文本到视频Github
CogVideoX和CogVideo通过大规模预训练模型和3D因果VAE技术,实现高质量的文本到视频生成。CogVideoX-2B可在单个3090 GPU上进行推理,生成效果几乎无损。提供详尽的快速入门指南、模型结构介绍和使用案例。探索CogVideoX和CogVideo在Huggingface、WeChat、Discord等平台上的应用,获取更多技术细节和更新。
Awesome-Video-Diffusion - 人工智能视频生成与编辑技术资源大全
视频生成扩散模型文本到视频AI视频视频编辑Github开源项目
本文汇集了视频生成、编辑、修复和理解领域的最新扩散模型研究。内容包括开源工具箱、基础模型、评估基准和指标等。涵盖基础视频生成、可控生成、长视频生成、3D视频生成等多个方向,为视频AI技术研究和开发提供全面参考。
VideoElevator - 融合文本到图像技术提升AI视频生成质量
VideoElevator视频生成扩散模型文本到视频文本到图像Github开源项目
VideoElevator是一个开源的AI视频生成项目,通过结合文本到图像和文本到视频的扩散模型来提升生成视频的质量。该项目采用免训练、即插即用的方法,将视频生成过程分为时间运动细化和空间质量提升两个阶段。VideoElevator能在11GB以下显存的GPU上运行,支持多种扩散模型的协作,为高质量AI视频生成提供了新的解决方案。
MotionClone - 从参考视频克隆动作实现可控文本到视频生成
MotionClone视频生成动作克隆AI控制文本到视频Github开源项目
MotionClone是一个无需训练的框架,通过从参考视频克隆动作来控制文本到视频的生成。该项目采用时间注意力机制和位置感知语义引导,有效处理微妙动作并提升生成模型的提示理解能力。MotionClone为视频创作和研究提供了全面的动作和语义指导工具,推动了可控视频生成技术的发展。
StreamingT2V - 先进的长视频生成技术 实现连贯动态和可扩展内容
StreamingT2V长视频生成文本到视频一致性动态视频Github开源项目
StreamingT2V是一种创新的自回归技术,专门用于生成长时间、连贯一致的视频内容。该技术无需分段处理即可创建动态丰富的视频,确保了时间上的连贯性,同时保持与文本描述的高度契合和单帧图像的优质表现。目前已实现生成1200帧(约2分钟)的视频,并具有进一步延长的潜力。值得注意的是,StreamingT2V的性能不局限于特定的文本到视频模型,这意味着随着基础模型的进步,视频质量有望进一步提升。
MotionDirector - 自定义文本到视频模型的动作生成
MotionDirector文本到视频运动定制扩散模型AI视频生成Github开源项目
MotionDirector是一款文本到视频扩散模型定制工具,可根据视频样本学习特定动作概念并应用于视频生成。该工具支持单个或多个参考视频,能准确捕捉动作特征,实现外观和动作的同步定制。此外,MotionDirector还具备图像动画和电影镜头效果功能,为AI视频创作提供更多可能性。
awesome-video-generation - 全面汇集视频生成研究的前沿资源库
视频生成扩散模型文本到视频图像到视频AI视频Github开源项目
资源库系统整理视频生成领域的前沿研究论文和资源,包括文本生成视频、图像生成视频、个性化视频生成等多个方向。内容涵盖论文列表、链接、数据集、产品介绍和常见问题解答。这为研究人员和开发者提供了全面了解视频生成技术发展的专业参考。
video-diffusion-pytorch - 开源项目实现文本到视频生成新突破
视频生成深度学习PytorchU-net文本到视频Github开源项目
video-diffusion-pytorch项目实现了基于扩散模型的文本到视频生成技术。该开源项目采用时空分解U-net结构,将2D图像生成扩展至3D视频领域。支持文本条件生成、BERT编码和批量训练等功能。目前在移动MNIST数据集上表现良好,为研究人员和开发者提供了探索视频生成新前沿的工具。该技术有望在复杂视频生成任务中取得进展。
CogVideoX-2b - 轻量级开源视频生成模型支持低显存推理
CogVideoX视频生成文本到视频扩散模型人工智能Github开源项目Huggingface模型
CogVideoX-2B是一个基于扩散模型的开源视频生成工具。该模型可将文本描述转化为6秒长、720x480分辨率、8帧/秒的视频。其最低仅需4GB显存即可运行,通过INT8量化还可进一步降低资源消耗。作为入门级选择,CogVideoX-2B在性能和资源使用间取得平衡,适合进行二次开发。模型目前支持英文输入,并提供多种优化方案以提升推理速度和降低显存占用。
CogVideoX-5b - 专家Transformer驱动的先进文本到视频生成模型
模型Github开源项目Huggingface扩散模型CogVideoX视频生成文本到视频人工智能
CogVideoX-5b是基于专家Transformer的文本到视频生成模型。它可生成6秒720x480分辨率、8帧/秒的视频,支持226个token的英文提示输入。模型采用BF16精度,推理VRAM消耗低至5GB。通过多项优化,CogVideoX-5b在保持视觉质量的同时提高了推理速度,为视频生成研究与应用提供了有力工具。
VideoTuna - 多模型集成的AI生成解决方案
VideoTunaAI视频生成文本到视频图像到视频视频自动化Github开源项目
VideoTuna项目集成多种AI视频生成模型,支持从文本到视频、图像到视频及文本到图像的生成任务。该项目提供全方位的视频生成流程,涵盖预训练、持续训练、后续对齐和微调操作。平台包含U-Net与DiT结构的生成模型,并推出3D视频VAE和可控人脸视频生成模型,为开发者提供提升视频生成自动化和效果的工具。