#条件生成

MelNet - MelNet音频频域生成模型的全面实现
MelNet音频生成Python条件生成TTS合成Github开源项目
MelNet项目提供了一个在音频频域中生成模型的实现,支持无条件与条件音频生成。该技术兼容多个数据集,包括Blizzard和VoxCeleb2,支持灵活的训练配置,同时实现多GPU训练与TTS合成,不断更新以支持更多音频处理功能。它为致力于音频生成技术研究的开发者和研究人员提供了有力工具。
InstanceDiffusion - 实现精确实例级图像生成控制的突破性方法
InstanceDiffusion图像生成实例级控制文本到图像条件生成Github开源项目
InstanceDiffusion为文本到图像的扩散模型引入精确的实例级控制。该技术支持每个实例的自由语言条件,可灵活指定实例位置,包括单点、涂鸦、边界框和实例分割掩码。相比现有技术,InstanceDiffusion在框输入的AP50上提升2.0倍,掩码输入的IoU提高1.7倍,为图像生成和编辑领域带来新的可能性。
CVPR23_LFDM - 潜在流扩散模型实现条件图像到视频生成
LFDM图像到视频生成条件生成潜在流扩散模型深度学习Github开源项目
CVPR23_LFDM项目提出了一种基于潜在流扩散模型的条件图像到视频生成方法。该方法在MUG、MHAD和NATOPS数据集上展示了生成流畅自然的人脸表情和人体动作视频的能力。项目开源了预训练模型、演示代码和详细的模型训练流程,为计算机视觉研究提供了有价值的资源。