#潜在扩散模型

Tango: 革命性的文本到音频生成技术

3 个月前

Tango 文本转音频生成潜在扩散模型人工智能音频生成 Github 开源项目

3 个月前

StableVITON: 利用潜在扩散模型实现虚拟试穿的语义对应学习

3 个月前

StableVITON 虚拟试衣语义对应潜在扩散模型 CVPR2024 Github 开源项目

3 个月前

DiffSketcher: 基于潜在扩散模型的文本引导矢量草图合成

3 个月前

DiffSketcher 向量草图合成潜在扩散模型文本引导 AI绘图 Github 开源项目

3 个月前

LaVie: 高质量视频生成的级联潜在扩散模型

3 个月前

LaVie 视频生成潜在扩散模型文本生成视频 AI视频制作 Github 开源项目

3 个月前

Multimodal Garment Designer: 基于人体中心的时尚图像编辑潜在扩散模型

3 个月前

Multimodal Garment Designer 时尚图像编辑潜在扩散模型 Dress Code VITON-HD Github 开源项目

3 个月前

相关项目

multimodal-garment-designer

本项目通过多模态条件时尚图像编辑，优化服装设计流程，生成符合文本、人体姿势和服装草图等多种输入模态的时尚图像。采用的新架构基于潜变量扩散模型，并且扩展了Dress Code和VITON-HD数据集，实验结果显示该方法在图像现实性和输入一致性方面效果显著。更多详情请参阅官方文档及GitHub仓库。

LaVie

LaVie是一个基于级联潜在扩散模型的文本到视频生成框架。它通过基础模型生成、视频插值和超分辨率三个步骤,可生成16至61帧、最高1280x2048分辨率的高质量视频。该框架支持多种采样方法和参数调整,用户可通过简单命令生成不同风格视频。LaVie开源了模型代码和预训练权重,便于学术研究和商业应用。

DiffSketcher

DiffSketcher是一个基于潜在扩散模型的文本引导矢量草图合成项目。它可以根据文本描述生成高质量的矢量草图,支持素描、油画和彩色图像等多种风格。该项目提供灵活的参数配置,如调整笔画数量和迭代次数,并支持与风格迁移技术结合。DiffSketcher为艺术创作和图像生成领域提供了新的可能性。

StableVITON

StableVITON是一个基于潜在扩散模型的虚拟试穿项目，专注于学习语义对应以实现高质量的虚拟试穿效果。该项目提供推理和训练代码，以及预训练模型权重，支持配对和非配对虚拟试穿，并可通过重绘选项保留未遮罩区域。StableVITON在VITON-HD数据集上训练，引入ATV损失提升模型性能。这一开源项目为虚拟试穿技术研究提供了有力工具。

tango

Tango是一个创新的文本到音频生成模型,结合了潜在扩散模型和大语言模型技术。该模型使用冻结的Flan-T5作为文本编码器,训练UNet扩散模型生成音频。尽管训练数据集较小,Tango的性能仍可媲美最先进模型。Tango 2版本通过在Audio-alpaca数据集上的DPO对齐训练进一步提升了生成质量。项目开源了模型代码和预训练权重,为音频生成研究提供了有价值的资源。

terminus-xl-gamma-v1

Terminus XL Gamma是采用零终端信噪比噪声调度的潜在扩散模型，能在文本提示下生成高质量图像，适用于艺术、广告和娱乐领域，尤其在图像修复方面表现出色。此外，该模型可用于图像超分辨率和风格转换等应用。建议使用者关注模型的潜在偏见，并避免用于有害内容生成。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com