Logo

#潜在扩散模型

Logo of multimodal-garment-designer
multimodal-garment-designer
本项目通过多模态条件时尚图像编辑,优化服装设计流程,生成符合文本、人体姿势和服装草图等多种输入模态的时尚图像。采用的新架构基于潜变量扩散模型,并且扩展了Dress Code和VITON-HD数据集,实验结果显示该方法在图像现实性和输入一致性方面效果显著。更多详情请参阅官方文档及GitHub仓库。
Logo of tango
tango
Tango是一个创新的文本到音频生成模型,结合了潜在扩散模型和大语言模型技术。该模型使用冻结的Flan-T5作为文本编码器,训练UNet扩散模型生成音频。尽管训练数据集较小,Tango的性能仍可媲美最先进模型。Tango 2版本通过在Audio-alpaca数据集上的DPO对齐训练进一步提升了生成质量。项目开源了模型代码和预训练权重,为音频生成研究提供了有价值的资源。