Project Icon

FIFO-Diffusion_public

文本驱动的无限长度视频生成技术

FIFO-Diffusion是一种创新的文本到视频生成技术,无需额外训练即可从文本描述生成无限长度的高质量视频。该项目具有低内存需求(不到10GB VRAM)、支持多GPU并行推理等特点,并可与VideoCrafter2和Open-Sora Plan等先进模型兼容。FIFO-Diffusion为研究人员和开发者提供了探索和创造长时间、连贯视频内容的有力工具。

AnimateDiff - 为文本到图像模型赋予动画生成能力的即插即用模块
AnimateDiffGithub开源项目文本生成动画社区模型稳定扩散运动模块
AnimateDiff是一个即插即用模块,可将文本到图像模型转变为动画生成器,无需额外训练。通过学习可迁移的运动先验,它适用于Stable Diffusion系列的多种变体。该项目支持使用社区模型生成动画、MotionLoRA控制以及SparseCtrl RGB和草图控制等功能。AnimateDiff增强了文本到视频模型的控制能力,能生成高质量动画。
awesome-video-generation - 全面汇集视频生成研究的前沿资源库
AI视频Github图像到视频开源项目扩散模型文本到视频视频生成
资源库系统整理视频生成领域的前沿研究论文和资源,包括文本生成视频、图像生成视频、个性化视频生成等多个方向。内容涵盖论文列表、链接、数据集、产品介绍和常见问题解答。这为研究人员和开发者提供了全面了解视频生成技术发展的专业参考。
TokenFlow - 改进一致性的视频编辑方法
GithubTokenFlow开源项目扩散模型文本驱动生成式AI视频编辑
TokenFlow 利用预训练的文本到图像扩散模型,实现无需额外训练或微调的高质量视频编辑。通过帧间对应关系传播扩散特征,支持局部及全局编辑,比如改变现有物体的纹理或添加半透明效果(如烟雾、火焰、雪),同时保持输入视频的空间布局和动态效果。
MotionDirector - 自定义文本到视频模型的动作生成
AI视频生成GithubMotionDirector开源项目扩散模型文本到视频运动定制
MotionDirector是一款文本到视频扩散模型定制工具,可根据视频样本学习特定动作概念并应用于视频生成。该工具支持单个或多个参考视频,能准确捕捉动作特征,实现外观和动作的同步定制。此外,MotionDirector还具备图像动画和电影镜头效果功能,为AI视频创作提供更多可能性。
HunyuanDiT-v1.2-Diffusers - 基于多分辨率扩散技术的中文图像生成模型
GithubHuggingfaceHunyuanDiT中文理解人工智能图像生成多分辨率开源项目模型
HunyuanDiT-v1.2-Diffusers是一个开源的文本到图像生成模型,基于多分辨率Diffusion Transformer架构实现中英文文本理解。模型在文本-图像一致性、AI伪影控制、主体清晰度和美学评分等维度进行了测试评估,支持长文本输入和中国文化元素理解,可用于多样化的图像生成场景。
MS-Diffusion - 基于布局引导的多主体零样本图像个性化框架
GithubMS-Diffusion图像生成多主题个性化布局引导开源项目零样本学习
MS-Diffusion是一个多主体零样本图像个性化框架,利用布局引导技术提高生成质量。该框架通过接地令牌和特征重采样器保持细节保真度,并引入多主体交叉注意力机制协调主体组合。实验显示,MS-Diffusion在图像和文本保真度方面表现优异,有助于推进个性化文本到图像生成技术的发展。
DynamiCrafter - 将开放域图像转化为动态视频的AI动画工具
AI动画DynamiCrafterGithub图像动画化开源项目视频插帧视频生成
DynamiCrafter是一个图像动画化项目,能够基于文本提示将静态图像转换为动态视频。该项目利用预训练的视频扩散模型,生成高分辨率、连贯性强的动画。除了基础的图像动画化功能,DynamiCrafter还支持故事视频生成、帧插值和循环视频生成等应用。该项目在ECCV 2024会议上进行了口头报告,并在多项图像到视频生成基准测试中表现出色。
IF-II-L-v1.0 - 最新级联扩散模型提升图像生成能力
DeepFloyd-IFGithubHuggingface开源项目文本到图像模型级联扩散模型许可协议非商业使用
DeepFloyd-IF使用先进的文本到图像级联扩散模型生成高质量图像,具备出色的语言处理能力。采用冻结文本编码器与多级像素级扩散模块,将图像分辨率提升至1024x1024。通过COCO数据集测试,支持开箱即用,并可在Hugging Face平台通过diffusers库轻松运行。
fish-diffusion - 开源框架简化TTS、SVS和SVC模型开发
AI模型Fish DiffusionGithub多说话人开源项目语音合成
Fish Diffusion是一个开源的语音合成训练框架,专注于TTS、SVS和SVC任务。基于扩散模型,它支持多说话人合成和44.1kHz高品质输出。该项目优化了代码结构,提高了训练效率,并提供完整的环境配置和使用指南。Fish Diffusion适合研究人员和开发者探索语音合成技术,同时强调负责任的AI应用。项目特点包括简化的代码结构、多设备训练支持和半精度训练,有助于提高开发效率和降低资源消耗。此外,还提供了详细的数据集准备和模型训练指南,便于用户快速上手。
Diffus - 高精度Stable Diffusion图像生成平台
AI工具AI绘图Stable Diffusion人工智能艺术图像生成深度学习
Diffus为创意工作者提供精确控制的Stable Diffusion图像生成平台。用户可通过独特的构图控制、灯光和颜色调整等功能,轻松创作高质量图像。丰富的模型库支持多样化创作需求,适用于专业项目和个人创作。Diffus致力于帮助用户将创意概念转化为视觉作品,提升图像生成效率。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号