#潜在扩散模型

multimodal-garment-designer - 利用多模态潜变量扩散模型进行人类为中心的时尚图像编辑

Github开源项目Multimodal Garment Designer时尚图像编辑潜在扩散模型Dress CodeVITON-HD

本项目通过多模态条件时尚图像编辑，优化服装设计流程，生成符合文本、人体姿势和服装草图等多种输入模态的时尚图像。采用的新架构基于潜变量扩散模型，并且扩展了Dress Code和VITON-HD数据集，实验结果显示该方法在图像现实性和输入一致性方面效果显著。更多详情请参阅官方文档及GitHub仓库。

LaVie - 级联潜在扩散模型实现高质量视频生成

Github开源项目视频生成AI视频制作文本生成视频潜在扩散模型LaVie

LaVie是一个基于级联潜在扩散模型的文本到视频生成框架。它通过基础模型生成、视频插值和超分辨率三个步骤,可生成16至61帧、最高1280x2048分辨率的高质量视频。该框架支持多种采样方法和参数调整,用户可通过简单命令生成不同风格视频。LaVie开源了模型代码和预训练权重,便于学术研究和商业应用。

DiffSketcher - 基于文本生成高质量矢量草图的新方法

Github开源项目AI绘图潜在扩散模型文本引导DiffSketcher向量草图合成

DiffSketcher是一个基于潜在扩散模型的文本引导矢量草图合成项目。它可以根据文本描述生成高质量的矢量草图,支持素描、油画和彩色图像等多种风格。该项目提供灵活的参数配置,如调整笔画数量和迭代次数,并支持与风格迁移技术结合。DiffSketcher为艺术创作和图像生成领域提供了新的可能性。

StableVITON - 基于潜在扩散模型的虚拟试穿语义对应学习

Github开源项目虚拟试衣CVPR2024潜在扩散模型StableVITON语义对应

StableVITON是一个基于潜在扩散模型的虚拟试穿项目，专注于学习语义对应以实现高质量的虚拟试穿效果。该项目提供推理和训练代码，以及预训练模型权重，支持配对和非配对虚拟试穿，并可通过重绘选项保留未遮罩区域。StableVITON在VITON-HD数据集上训练，引入ATV损失提升模型性能。这一开源项目为虚拟试穿技术研究提供了有力工具。

tango - 利用扩散模型和大语言模型实现先进的文本到音频生成

人工智能Github开源项目音频生成潜在扩散模型Tango文本转音频生成

Tango是一个创新的文本到音频生成模型,结合了潜在扩散模型和大语言模型技术。该模型使用冻结的Flan-T5作为文本编码器,训练UNet扩散模型生成音频。尽管训练数据集较小,Tango的性能仍可媲美最先进模型。Tango 2版本通过在Audio-alpaca数据集上的DPO对齐训练进一步提升了生成质量。项目开源了模型代码和预训练权重,为音频生成研究提供了有价值的资源。

terminus-xl-gamma-v1 - 高效图像生成与修复的潜在扩散模型

Github开源项目图像修复图像生成模型Huggingface潜在扩散模型Terminus XL Gamma噪声调度

Terminus XL Gamma是采用零终端信噪比噪声调度的潜在扩散模型，能在文本提示下生成高质量图像，适用于艺术、广告和娱乐领域，尤其在图像修复方面表现出色。此外，该模型可用于图像超分辨率和风格转换等应用。建议使用者关注模型的潜在偏见，并避免用于有害内容生成。

相关文章

Article Cover

Multimodal Garment Designer: 基于人体中心的时尚图像编辑潜在扩散模型

Article Cover

LaVie: 高质量视频生成的级联潜在扩散模型

Article Cover

DiffSketcher: 基于潜在扩散模型的文本引导矢量草图合成

Article Cover

StableVITON: 利用潜在扩散模型实现虚拟试穿的语义对应学习

Article Cover

Tango: 革命性的文本到音频生成技术

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号