#视频生成

minisora - 致力探索AI视频生成技术的开源社区
MiniSora开源社区视频生成SoraDiTGithub开源项目
MiniSora是一个社区驱动的开源项目,专注于探索AI视频生成技术Sora的实现路径。该项目组织定期圆桌讨论、深入研究视频生成技术、复现相关论文并进行技术回顾。MiniSora旨在开发GPU友好、训练高效、推理快速的AI视频生成方案,推动人工智能视频生成领域的开源发展。
Pandora - 自然语言控制的视频生成世界模型
Pandora世界模型视频生成自然语言控制AI模拟Github开源项目
Pandora是一个通用世界模型项目,通过生成多领域视频模拟世界状态,并支持自然语言实时控制。该模型能跨领域生成视频,允许使用自然语言指令进行交互。Pandora在通用人工智能和视频生成领域取得重要进展,为开发更灵活智能的AI系统奠定基础。
ComfyUI-MimicMotion - AI动作模仿功能,为视频创作带来全新可能
ComfyUIMimicMotion自定义节点人工智能视频生成Github开源项目
ComfyUI-MimicMotion是基于腾讯MimicMotion项目的ComfyUI自定义节点,实现了AI驱动的动作模仿功能。该工具支持通过参考图像和视频生成新的动作模仿视频,为AI视频创作提供了新的可能性。项目提供Windows和Linux系统的安装指南,并有中文社区支持。这一工具为视频创作者和AI爱好者简化了动作模仿的过程,使其更加便捷。
awesome-video-generation - 全面汇集视频生成研究的前沿资源库
视频生成扩散模型文本到视频图像到视频AI视频Github开源项目
资源库系统整理视频生成领域的前沿研究论文和资源,包括文本生成视频、图像生成视频、个性化视频生成等多个方向。内容涵盖论文列表、链接、数据集、产品介绍和常见问题解答。这为研究人员和开发者提供了全面了解视频生成技术发展的专业参考。
CVPR2022-DaGAN - 基于深度感知的说话头像视频生成技术
DaGAN人工智能视频生成深度感知对抗生成网络Github开源项目
DaGAN是一种新型深度感知生成对抗网络,旨在生成高质量的说话头像视频。该方法利用面部深度信息提升生成效果,可适用于卡通和真人头像。在VoxCeleb1数据集上,DaGAN展现出优异性能。项目开源了预训练模型、在线演示和训练代码,便于研究复现。作为CVPR 2022的成果,DaGAN代表了说话头像生成领域的重要进展。
phenaki-pytorch - PyTorch实现Phenaki长视频AI生成技术
Phenaki视频生成AI机器学习PytorchGithub开源项目
项目采用PyTorch框架,实现Phenaki视频生成技术。通过Mask GIT方法,能根据文本提示生成最长2分钟的视频。引入token critic技术以提升生成质量。提供简洁API,支持条件和无条件生成模式。包含完整训练与推理代码,适用于文本到图像和视频生成的相关研究。
video-diffusion-pytorch - 开源项目实现文本到视频生成新突破
视频生成深度学习PytorchU-net文本到视频Github开源项目
video-diffusion-pytorch项目实现了基于扩散模型的文本到视频生成技术。该开源项目采用时空分解U-net结构,将2D图像生成扩展至3D视频领域。支持文本条件生成、BERT编码和批量训练等功能。目前在移动MNIST数据集上表现良好,为研究人员和开发者提供了探索视频生成新前沿的工具。该技术有望在复杂视频生成任务中取得进展。
magvit2-pytorch - MagViT2视频生成和理解模型的PyTorch开源实现
MagViT2视频生成AI模型Pytorch实现语言模型Github开源项目
MagViT2是基于语言模型的最新视频生成和理解技术。该PyTorch实现提供高效视频标记器和训练器,支持大规模数据集。项目包含无查找量化器,适用于多种模态。灵活架构设计允许自定义层和注意力机制,为研究人员提供探索和改进视频生成技术的工具。
ICCV2023-MCNET - 基于隐式身份表示的说话头视频生成方法
MCNettalking head视频生成深度学习计算机视觉Github开源项目
MCNet是一种新型说话头视频生成方法,在ICCV 2023上发表。该方法利用隐式身份表示和记忆补偿网络,生成高质量、自然的说话头视频。MCNet能够保持身份一致性,同时生成逼真、富有表现力的面部动画。项目开源了代码实现和预训练模型,为研究者提供了探索和应用的基础。
FFCreator - 基于Node.js的轻量级短视频处理库 支持多种动画效果
FFCreator短视频处理Node.js动画效果视频生成Github开源项目
FFCreator是基于Node.js的轻量级短视频处理库。支持添加图片、音乐、视频剪辑和文字等元素,提供近百种场景转场动画效果。模拟了大部分animate.css动画,可将网页动画效果转换为视频。依赖少、安装简单、跨平台,适用于快速创建视频相册和生成短视频。
stargazer - GitHub项目星标里程碑视频生成工具
GitHubStargazer视频生成开源项目RemotionGithub
Stargazer是一个GitHub项目工具,用于生成展示项目星标者的视频。支持本地渲染和GitHub Actions两种方式创建视频。该工具可定制视频内容,展示项目里程碑,增进与贡献者互动。Stargazer基于Remotion框架构建,为开源项目提供了创新的宣传方式。
swift-video-generator - iOS图像音频视频合成与处理库
SwiftVideoGenerator视频生成iOS开发CocoaPodsSwiftGithub开源项目
swift-video-generator是一个功能丰富的iOS库,用于图像、音频和视频的处理与合成。主要功能包括将图像和音频合成视频、合并多个视频、反转和分割视频片段等。该库支持iOS 12.0+和Swift 4+,提供简洁API,可通过CocoaPods或Swift Package Manager集成。适用于需要在iOS应用中进行视频处理的开发者。
magvit - 单模型实现多种视频合成任务的创新技术
MAGVIT视频生成机器学习计算机视觉深度学习Github开源项目
MAGVIT是一种创新的视频生成技术,采用掩码生成视频变换器实现单一模型解决多种视频合成任务。该项目在视频生成质量、效率和灵活性方面表现出色,能够执行类别条件生成、帧预测和多任务视频处理。MAGVIT在UCF-101、BAIR Robot Pushing、Kinetics-600等多个基准测试中取得优异成绩,展示了其在视频生成领域的应用前景。
wunjo.wladradchenko.ru - 集成语音和视觉AI技术的开源创意工具
WunjoAI工具开源项目视频生成语音合成Github
Wunjo是一款开源的AI创意工具,整合了语音合成、声音克隆、内容重塑和深度伪造动画等功能。该项目提供免费社区版和专业订阅版,适合不同层次用户使用。Wunjo在本地运行,保护用户隐私。2.0版本优化了界面和性能,改进了换脸功能,新增了人脸生成和深度伪造分析等特性。
awesome-conditional-content-generation - 条件内容生成的前沿技术与资源集锦
人工智能内容生成动作生成图像生成视频生成Github开源项目
这是一个综合性的条件内容生成资源库,主要聚焦于人体动作、图像和视频生成领域。项目汇集了最新研究论文和代码实现,包括音乐、文本和音频驱动的动作生成,以及人体动作预测等多个研究方向。同时还收录了条件图像和视频生成的相关资源,为该领域的研究和开发提供了丰富的参考材料。
openheygen - 开源AI视频生成工具 支持多语言语音合成和唇形同步
HeyGen开源方案视频生成音频克隆环境配置Github开源项目
OpenHeyGen是一个基于coqui和video-retalking的开源AI视频生成工具。它能将文本转换为多语言语音,并与原始视频人物唇形精准同步。用户提供原始视频和音频后,即可生成高质量AI视频。该工具支持中文、英语、日语等多种语言,操作简便,为视频内容创作者和开发者提供了创新的技术解决方案。其核心功能包括多语言文本到语音转换、唇形同步技术和视频合成,满足各种AI视频制作需求。
Runway - 突破创新的人工智能创意解决方案
AI工具Runway人工智能创造力视频生成多模态模拟器
Runway专注于应用人工智能研究,推动艺术和娱乐的新发展。其创新工具支持高质量视频生成,赋能电影、音乐视频等多媒体创作。Runway Studios多元化支持电影、文献和音乐视频创作。
AI Generators - 提供全面的AI生成器探索平台
AI工具AI生成器图像生成文本生成视频生成语音生成
该平台汇集了多种AI生成器,涵盖文本、图像、视频、音乐和代码生成等,帮助用户探索这些技术在艺术、商业等领域的应用。
CogVideoX-2b - 轻量级开源视频生成模型支持低显存推理
CogVideoX视频生成文本到视频扩散模型人工智能Github开源项目Huggingface模型
CogVideoX-2B是一个基于扩散模型的开源视频生成工具。该模型可将文本描述转化为6秒长、720x480分辨率、8帧/秒的视频。其最低仅需4GB显存即可运行,通过INT8量化还可进一步降低资源消耗。作为入门级选择,CogVideoX-2B在性能和资源使用间取得平衡,适合进行二次开发。模型目前支持英文输入,并提供多种优化方案以提升推理速度和降低显存占用。
V-Express - V-Express项目中的多媒体智能转换技术
稳定扩散音频编码器Huggingface开源项目模型Github面部分析V-Express视频生成
V-Express项目通过diffusers库,实现从音频到视频的生成,整合了稳定扩散和文本到图像转换技术。项目中包含wav2vec2-base-960h音频编码器和insightface面部分析模型,支持多媒体内容的高效生成与分析。
CogVideoX-5b - 专家Transformer驱动的先进文本到视频生成模型
模型Github开源项目Huggingface扩散模型CogVideoX视频生成文本到视频人工智能
CogVideoX-5b是基于专家Transformer的文本到视频生成模型。它可生成6秒720x480分辨率、8帧/秒的视频,支持226个token的英文提示输入。模型采用BF16精度,推理VRAM消耗低至5GB。通过多项优化,CogVideoX-5b在保持视觉质量的同时提高了推理速度,为视频生成研究与应用提供了有力工具。
CogVideoX-5b-I2V - 开源图像到视频生成模型支持多种精度和量化推理
模型视频生成图像到视频GithubAI模型深度学习CogVideoXHuggingface开源项目
CogVideoX-5b-I2V是一个开源的图像到视频生成模型,参数规模为5B。该模型可生成6秒长、8帧/秒、720x480分辨率的视频,支持多种精度和量化推理。通过diffusers库可快速部署,单GPU运行时内存占用较低。模型提供量化推理功能,适用于小内存GPU,并可通过torch.compile加速。
text-to-video-ms-1.7b - 多阶段扩散模型实现文本到视频的智能转换
diffusion model模型开源项目Huggingface视频生成text-to-videoModelScopeGithub人工智能
text-to-video-ms-1.7b是一个基于多阶段扩散模型的文本到视频生成系统。该模型可将英文文本描述转化为匹配的视频内容,由三个子网络组成,总参数约17亿。支持长视频生成,适用于多种创意应用场景。目前仅支持英语输入,且存在无法生成清晰文本等局限性。该模型仅供研究用途,使用时应注意避免生成不当或有害内容。
AnimateLCM - 基于机器学习的轻量级视频生成框架
AnimateLCM图像处理模型深度学习Github视频生成人工智能动画Huggingface开源项目
AnimateLCM是一个视频生成框架,支持文本到视频和图像到视频的转换功能。该框架采用轻量级计算方式,无需使用预训练视频数据即可生成个性化视频。框架集成了SVD-xt和I2V模型,通过6步推理完成视频生成。基于Diffusers库开发,支持多种复杂场景的视频生成任务。
Emu3-VisionTokenizer - Emu3多模态模型通过单一预测方法实现突破性能
多模态模型Github开源项目Emu3模型Huggingface图像生成视频生成人工智能
Emu3是一套创新的多模态模型,采用单一的下一个令牌预测方法进行训练。该模型将图像、文本和视频统一处理,从头训练单个Transformer模型。在生成和理解任务中,Emu3的表现超越了SDXL、LLaVA-1.6和OpenSora-1.2等知名模型,无需复杂架构。Emu3能生成高质量图像、理解视觉语言,并通过简单预测生成连贯视频,展现了多模态AI的新可能。
stable-video-diffusion-img2vid-xt-1-1 - 从图像生成视频的扩散模型的稳定性
开源项目模型视频生成GithubHuggingface非商业用途规定条件Stable Video Diffusion研究用途
Stable Video Diffusion 1.1 是一款专为研究用途而设计的图像到视频生成模型,通过优化固定条件和运动配置,实现了更一致的视频输出。该模型可以从单张图像生成25帧、分辨率为1024x576的视频片段,但不适用于精确表现真实人物或事件,且不能通过文本进行控制。在探讨生成模型的局限性和偏见时,该模型表现出色。欲了解更多信息,请访问 Stability AI 的 GitHub 仓库。