Project Icon

VideoTetris

创新视频生成技术 实现复杂语义精确组合

VideoTetris是一个视频生成框架,采用时空组合扩散技术实现复杂文本语义的精确表达。通过操控去噪网络的注意力图,在空间和时间维度上控制视频生成。项目提出了视频数据预处理方法,提升了训练数据的动态性和提示理解能力。VideoTetris可生成10秒至2分钟或更长的视频,为复杂场景视频生成提供了新方案。

LaVie - 级联潜在扩散模型实现高质量视频生成
AI视频制作GithubLaVie开源项目文本生成视频潜在扩散模型视频生成
LaVie是一个基于级联潜在扩散模型的文本到视频生成框架。它通过基础模型生成、视频插值和超分辨率三个步骤,可生成16至61帧、最高1280x2048分辨率的高质量视频。该框架支持多种采样方法和参数调整,用户可通过简单命令生成不同风格视频。LaVie开源了模型代码和预训练权重,便于学术研究和商业应用。
AI-Auto-Video-Generator - AI自动视频生成:从故事提示到视频合成
AI-Auto-Video-GeneratorDALL-EElevenLabsGithubOpenAI开源项目视频生成
该项目利用AI技术生成视频,通过用户的故事提示,采用OpenAI的GPT-3生成文本,OpenAI的DALL-E生成图像,并用ElevenLabs API进行语音合成,最终合成一个视频。项目要求安装Python 3.6或更高版本、pip、FFmpeg等工具,以及配置OpenAI和ElevenLabs API密钥。用户还可修改代码来制作特定主题的视频,如俳句或蜜蜂知识,并自定义图像和语音设置,实现个性化的视频创作体验。
ShortVideoGen - 高效AI短视频生成平台
AI工具ShortVideoGen人工智能文本转视频短视频生成订阅计划
ShortVideoGen是一个创新的text to video平台,结合先进的AI Video Generator技术,将文本快速转化为带音频的短视频。用户只需三步即可完成创作:输入文本、自定义参数、生成视频。平台提供多种订阅选项,适应不同需求。网站还展示了多样化的视频示例,突显其广泛应用价值。
FreeNoise - 通过噪声重新调度实现无调谐的更长视频传播
FreeNoiseGithubLongerCrafter噪声重排开源项目无调优视频生成
FreeNoise是一种基于噪声重调的无调参长视频生成方法,不需要调参,仅需增加不到20%的时间即可实现高质量、长时间视频生成,支持多达512帧。该方法兼容VideoCrafter2、AnimateDiff和LaVie等视频框架,支持单一和多提示词的文本转视频生成,最新支持256x256分辨率。详情请参见项目页面和arXiv论文。
TokenFlow - 改进一致性的视频编辑方法
GithubTokenFlow开源项目扩散模型文本驱动生成式AI视频编辑
TokenFlow 利用预训练的文本到图像扩散模型,实现无需额外训练或微调的高质量视频编辑。通过帧间对应关系传播扩散特征,支持局部及全局编辑,比如改变现有物体的纹理或添加半透明效果(如烟雾、火焰、雪),同时保持输入视频的空间布局和动态效果。
CogVideoX-2b - 轻量级开源视频生成模型支持低显存推理
CogVideoXGithubHuggingface人工智能开源项目扩散模型文本到视频模型视频生成
CogVideoX-2B是一个基于扩散模型的开源视频生成工具。该模型可将文本描述转化为6秒长、720x480分辨率、8帧/秒的视频。其最低仅需4GB显存即可运行,通过INT8量化还可进一步降低资源消耗。作为入门级选择,CogVideoX-2B在性能和资源使用间取得平衡,适合进行二次开发。模型目前支持英文输入,并提供多种优化方案以提升推理速度和降低显存占用。
videollm-online - 流式视频实时理解与交互的先进模型
GithubVideoLLM-online大语言模型实时交互开源项目流媒体视频视频处理
VideoLLM-online是一款针对流媒体视频的在线大语言模型。该模型支持视频流实时交互,可主动更新响应,如记录活动变化和提供实时指导。项目通过创新的数据合成方法将离线注释转化为流式对话数据,并采用并行化推理技术实现高速处理,在A100 GPU上处理速度可达10-15 FPS。VideoLLM-online在在线和离线环境中均表现出色,能高效处理长达10分钟的视频,为视频理解与交互领域带来新的可能性。
Rerender_A_Video - 零样本文本引导的视频风格转换框架
AI视频处理GithubRerender A Video开源项目时间一致性视频转换零样本学习
Rerender_A_Video项目提出了一种零样本文本引导的视频到视频转换框架。该框架通过关键帧转换和全视频转换,实现了视频风格和纹理的时间一致性。无需重新训练,可与现有图像扩散技术兼容,支持使用LoRA自定义主题和ControlNet引入空间引导。这种方法能生成高质量、时间连贯的风格化视频。
CogVideoX-5b - 专家Transformer驱动的先进文本到视频生成模型
CogVideoXGithubHuggingface人工智能开源项目扩散模型文本到视频模型视频生成
CogVideoX-5b是基于专家Transformer的文本到视频生成模型。它可生成6秒720x480分辨率、8帧/秒的视频,支持226个token的英文提示输入。模型采用BF16精度,推理VRAM消耗低至5GB。通过多项优化,CogVideoX-5b在保持视觉质量的同时提高了推理速度,为视频生成研究与应用提供了有力工具。
Human-Video-Generation - 人工智能视频生成技术的演进与应用
3D建模Github人体视频生成人工智能开源项目深度学习计算机视觉
Human-Video-Generation项目收录了2018年以来人工智能视频生成领域的重要研究成果。该项目涵盖面部重演、动作迁移和语音驱动动画等多个方向,提供了前沿论文、代码实现和演示视频。从早期的PSGAN到最新的Real3D-Portrait,项目全面展示了AI视频生成技术的快速进展,为相关领域的研究者和开发者提供了丰富的参考资源。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号