#扩散模型

CCSR - 改善扩散模型在内容一致超分辨率任务中的稳定性

CCSR超分辨率扩散模型图像恢复稳定性Github开源项目

CCSR项目专注于提高扩散模型在内容一致超分辨率任务中的稳定性。项目引入全局标准差(G-STD)和局部标准差(L-STD)两个新指标，用于评估基于扩散的方法在超分辨率结果中的图像级和像素级变化。实验表明，CCSR在真实世界和双三次超分辨率任务中均有优异表现，能够生成更稳定、高质量的图像。项目提供开源代码、预训练模型和在线演示，方便研究人员和开发者使用。

flash-diffusion - 用于加速条件扩散模型的高效蒸馏技术

Flash Diffusion图像生成扩散模型LoRA加速技术Github开源项目

Flash Diffusion是一种用于加速预训练扩散模型图像生成的蒸馏方法。该技术高效、快速、通用且兼容LoRA，在COCO数据集上实现了少步骤图像生成的先进性能。Flash Diffusion只需几小时GPU训练时间和较少可训练参数，适用于文本生成图像、图像修复、换脸和超分辨率等多种任务。它支持UNet和DiT等不同骨干网络，能够显著减少采样步骤，同时保持高质量的图像生成效果。

StableNormal - 提高单目法线估计稳定性的创新方法

StableNormal法向估计扩散模型计算机视觉深度学习Github开源项目

StableNormal是一个针对单目法线估计的开源项目,通过定制扩散先验模型来提高估计的稳定性。该方法减少了扩散模型的随机性,实现了稳定且清晰的法线估计。StableNormal在多个基准测试中表现优异,并能改进多种实际应用,为计算机视觉和3D重建领域提供了新的解决方案。

DragDiffusion - 基于扩散模型的交互式图像编辑工具

DragDiffusion图像编辑扩散模型交互式人工智能Github开源项目

DragDiffusion结合扩散模型和交互式编辑，允许用户通过拖拽操作修改图像。支持真实和生成图像编辑，集成LoRA训练、自定义VAE和FreeU技术，提高编辑质量和效率。这个研究项目为图像处理提供了新的方法和工具。

PnPInversion - 先进的扩散模型逆向技术，仅需3行代码即可提升图像编辑效果

PnPInversion扩散模型图像编辑图像反演性能评估Github开源项目

PnPInversion是一种新型扩散模型逆向方法，通过在源扩散分支纠正逆向偏差，仅需3行代码即可提升图像编辑效果。该技术在保持原图内容的同时提高编辑保真度。研究还提出PIE-Bench基准测试集，包含700张多样化场景和编辑类型的图像。评估显示PnPInversion在编辑性能和推理速度上均优于现有方法。

modular-diffusion - 灵活可扩展的PyTorch扩散模型框架

Modular Diffusion扩散模型PyTorch机器学习模块化设计Github开源项目

Modular Diffusion是一个基于PyTorch的模块化扩散模型框架，为设计和训练自定义扩散模型提供了简洁的API。该框架支持多种噪声类型、调度类型、去噪网络和损失函数，并提供了预构建模块库。Modular Diffusion适用于图像生成和非自回归文本合成等多种应用场景，适合AI研究人员和爱好者使用。其模块化设计简化了新型扩散模型的创建和实验过程。

DiffIR - 创新扩散模型提升图像修复效率

DiffIR图像恢复扩散模型ICCV2023深度学习Github开源项目

DiffIR是一种专为图像修复设计的创新扩散模型。它结合了紧凑的图像修复先验提取网络、动态图像修复变换器和去噪网络，相比传统扩散模型实现了更快速、稳定的图像恢复。在多项图像修复任务中，DiffIR展现出最先进的性能，同时大幅降低计算成本，为图像修复技术开辟了新的发展方向。

MedSegDiff - 创新医学图像分割框架

MedSegDiff医学图像分割扩散模型深度学习人工智能Github开源项目

MedSegDiff是一个创新的医学图像分割框架，基于扩散概率模型(DPM)。该方法通过添加高斯噪声并学习逆向去噪过程来实现分割。利用原始图像作为条件，MedSegDiff从随机噪声生成多个分割图，并进行集成获得最终结果。这种方法能够捕捉医学图像中的不确定性，在多个基准测试中表现优异。MedSegDiff支持多种医学图像分割任务，包括皮肤黑色素瘤和脑肿瘤分割等，并提供详细使用说明和示例。

joliGEN - 集成GAN、扩散和一致性模型的AI图像生成框架

JoliGEN生成式AI图像处理GAN扩散模型Github开源项目

joliGEN是一个集成框架，用于训练自定义的AI图像转换模型。该框架集成了GAN、扩散和一致性模型，可用于配对和无配对的图像转换任务。joliGEN适用于图像生成控制、增强现实和数据集增强等实际场景。它支持快速稳定的训练过程，并提供REST API服务简化部署。凭借丰富的选项和参数，joliGEN可应用于多种图像生成和处理任务。

MagicDrive - 多样化3D几何控制的街景生成框架

MagicDrive街景生成3D几何控制扩散模型计算机视觉Github开源项目

MagicDrive是一个创新街景生成框架，提供多样化的3D几何控制，包括相机姿态、道路地图和3D边界框。通过结合文本描述、定制编码策略和跨视图注意力模块，实现了多相机视角的一致性。该框架能生成高保真街景图像和视频，精确捕捉3D几何特征和场景细节，有助于提升BEV分割和3D物体检测等任务的性能。

Make-An-Audio - 将文本转换为高保真音频的开源扩散模型

Make-An-Audio文本转音频扩散模型音频生成人工智能Github开源项目

Make-An-Audio是一个开源的文本到音频生成项目，基于条件扩散概率模型。该项目能够从文本等多种模态生成高保真音频，支持文本到音频、音频到音频等多种任务。项目提供了预训练模型和简单的命令行操作，方便用户生成自定义音频。此外，项目还包含了详细的训练和评估流程，以及与其他模型的性能比较。

DocDiff - 基于残差扩散模型的轻量级文档图像增强工具

DocDiff文档增强扩散模型图像处理深度学习Github开源项目

DocDiff是一个基于残差扩散模型的轻量级文档增强工具，用于文档去模糊、去噪、二值化和去水印等任务。该模型在128*128分辨率上训练仅需12GB显存。除文档处理外，DocDiff还适用于自然场景图像处理和语义分割。项目提供完整代码和预训练模型，便于快速实现和应用。

ddpm-cd - 基于扩散模型的遥感变化检测方法

DDPM-CD遥感变化检测扩散模型特征提取语义理解Github开源项目

DDPM-CD项目提出了一种新的遥感变化检测方法,利用预训练的去噪扩散概率模型(DDPM)作为特征提取器。该方法首先在大量遥感图像上预训练DDPM模型,然后微调轻量级变化分类器,利用DDPM提取的特征和变化标签进行训练。实验表明,DDPM-CD在多个变化检测数据集上性能优异,展示了DDPM在变化检测中的有效性。

Awesome-Controllable-Generation - 可控生成技术前沿 ControlNet到DreamBooth及最新进展

可控生成扩散模型文本到图像人工智能深度学习Github开源项目

该项目收集了扩散模型中可控生成的前沿论文和资源,涵盖ControlNet、DreamBooth等开创性工作及图像、视频、3D生成的最新应用。内容包括精细合成控制、主题驱动生成和复杂布局操作等技术,汇集80余篇精选论文,全面覆盖可控生成领域的多种技术和应用,为相关研究者提供重要参考。

SceneTex - 基于扩散先验的室内场景高质量纹理合成方法

SceneTex纹理合成室内场景扩散模型3D渲染Github开源项目

SceneTex是一种基于扩散先验的室内场景纹理合成方法。该方法将纹理合成视为RGB空间中的优化问题，采用多分辨率纹理场隐式编码网格外观，并使用交叉注意力解码器确保跨视图风格一致性。SceneTex能为3D-FRONT场景生成高质量、风格一致的纹理，在视觉质量和提示保真度方面优于现有方法。

DiffGesture - 音频驱动协同语音手势生成的扩散模型框架

AI动画语音驱动手势生成扩散模型跨模态学习计算机视觉Github开源项目

DiffGesture是一个基于扩散模型的框架，旨在生成与音频同步的协同语音手势。该框架通过扩散条件生成过程和音频-手势变换器捕捉跨模态关联，并使用手势稳定器和无分类器引导保持时间一致性。DiffGesture生成的手势具有良好的模式覆盖和音频相关性，在多个数据集上展现出优秀性能。

sd-controlnet-mlsd - 结合M-LSD直线检测优化Stable Diffusion的图像生成

Github开源项目条件输入M-LSDHuggingfaceStable Diffusion扩散模型ControlNet模型

该项目介绍了ControlNet神经网络结构，通过加入M-LSD直线检测等条件来控制大规模扩散模型，适用于Stable Diffusion。ControlNet能够在小数据集下进行稳健学习，且可在个人设备上快速训练。项目提供了多种检查点，涵盖边缘检测、深度估计和关键点检测，丰富了大规模扩散模型的控制方式，有助于推进相关应用的发展，最佳效果在Stable Diffusion v1-5结合使用时体现。

CogVideoX-2b - 轻量级开源视频生成模型支持低显存推理

CogVideoX视频生成文本到视频扩散模型人工智能Github开源项目Huggingface模型

CogVideoX-2B是一个基于扩散模型的开源视频生成工具。该模型可将文本描述转化为6秒长、720x480分辨率、8帧/秒的视频。其最低仅需4GB显存即可运行，通过INT8量化还可进一步降低资源消耗。作为入门级选择，CogVideoX-2B在性能和资源使用间取得平衡，适合进行二次开发。模型目前支持英文输入，并提供多种优化方案以提升推理速度和降低显存占用。

kandinsky-3 - 开放源代码的俄罗斯文化文本到图像扩散模型

扩散模型开放源代码模型Github开源项目文本生成图像俄罗斯文化Kandinsky 3.0Huggingface

Kandinsky 3.0是一个开放源代码的文本到图像扩散模型，注重生成与俄罗斯文化相关的图像。相较于Kandinsky2-x系列，该模型使用了更丰富的数据集，并通过增大文本编码器和扩散U-Net模型的规模，提升了文本理解和图像质量。Kandinsky 3.0包括基本型和修补型两种模型，经过不同步数的训练，提供高质量的图像生成。

kandinsky-2-2-decoder-inpaint - Kandinsky 2.2的文本引导图像修复及生成新方法

扩散模型开源项目文本到图像图像合成模型HuggingfaceCLIP模型Kandinsky 2.2Github

Kandinsky 2.2结合Dall-E 2和潜在扩散技术，融入CLIP模型进行文本与图像编码，并实现跨CLIP模态空间的图像扩散映射，提升视觉表现力。支持文本引导的图像修复，并整合于diffusers库。用户可通过修改掩码格式进行编辑。本版本在解析性能上进行了优化，在COCO_30k数据集的零样本测试中表现出色，FID指标显示显著提升。

PixArt-XL-2-512x512 - 快速生成高分辨率图像的高效能模型

Pixart-αGithub生成模型开源项目文本到图像Huggingface深度学习扩散模型模型

PixArt-α是一个基于Transformer架构的文本到图像生成框架，能够从文本提示生成高分辨率图像，最高可达1024像素。相比于Stable Diffusion v1.5，其训练时间仅为10.8%，大幅降低成本与碳排放。用户偏好评估显示，PixArt-α在实现效率与图像质量方面表现卓越，适用于艺术创作、教育用途及生成模型研究。但需要注意的是，其在图像还原现实性和复杂任务的执行上尚有局限。查看其GitHub或arXiv以了解更多细节。

controlnet-depth-sdxl-1.0 - SDXL深度控制网络模型优化图像生成效果

模型开源项目Huggingface扩散模型图像生成SDXL-controlnet深度控制Github人工智能

controlnet-depth-sdxl-1.0是基于Stable Diffusion XL的深度控制网络模型，利用深度图引导图像生成。该模型在300万图像-文本对上训练700 GPU小时，采用fp16混合精度，支持高分辨率输出。项目提供详细使用说明和代码示例，便于集成到SDXL管道中，有助于提升生成图像的质量和细节。

CogVideoX-5b - 专家Transformer驱动的先进文本到视频生成模型

模型Github开源项目Huggingface扩散模型CogVideoX视频生成文本到视频人工智能

CogVideoX-5b是基于专家Transformer的文本到视频生成模型。它可生成6秒720x480分辨率、8帧/秒的视频,支持226个token的英文提示输入。模型采用BF16精度,推理VRAM消耗低至5GB。通过多项优化,CogVideoX-5b在保持视觉质量的同时提高了推理速度,为视频生成研究与应用提供了有力工具。

sdxl-vae - 优化自动编码器提升图像生成细节

模型自编码器扩散模型图像生成Stable DiffusionGithubVAEHuggingface开源项目

SDXL-VAE项目为SDXL模型提供了优化版变分自动编码器。通过增大批量大小和采用指数移动平均，新autoencoder在所有重建指标上超越原始模型。它易于集成到diffusers工作流中，提升生成图像的局部高频细节。在COCO 2017数据集评估中，SDXL-VAE在rFID、PSNR、SSIM等指标上均优于原始VAE，显著改善了图像重建质量。

ddpm-cifar10-32 - 扩散概率模型在CIFAR10数据集上的图像生成应用

图像生成HuggingfaceDDPM深度学习模型人工智能Github扩散模型开源项目

该项目实现了基于扩散概率模型的图像生成。模型利用非平衡热力学原理，在CIFAR10数据集上达到9.46的Inception分数和3.17的FID分数。项目支持DDPM、DDIM和PNDM等多种噪声调度器，可平衡生成质量和推理速度。开发者可使用预训练模型进行推理或自行训练新模型。

marigold-depth-lcm-v1-0 - 基于扩散技术的单目深度估计模型实现零样本迁移

模型扩散模型图像生成Github深度估计Marigold单目深度估计开源项目Huggingface

Marigold-depth-lcm-v1-0是一个创新的单目深度估计模型，基于扩散技术开发。该模型利用Stable Diffusion的视觉知识，通过合成数据微调，实现了对未见数据的零样本迁移能力。在单目深度估计任务中，Marigold展现出优异性能，为计算机视觉领域提供了新的深度估计解决方案。这一成果不仅推动了单目深度估计技术的发展，还展示了扩散模型在此领域的巨大潜力。

IF-I-M-v1.0 - DeepFloyd-IF像素级文本到图像级联扩散模型

Huggingface模型深度学习文本生成图像人工智能Github扩散模型开源项目DeepFloyd-IF

IF-I-M-v1.0是DeepFloyd-IF系列中的400M参数模型,生成64x64像素图像。它使用冻结T5文本编码器和UNet架构,通过三级级联扩散实现文本到图像生成。模型在COCO数据集上获得6.66的零样本FID-30K分数,达到新的技术水平。可通过Hugging Face的diffusers库使用,支持GPU推理和模型微调。

control_v11e_sd15_ip2p - 更好地控制扩散模型的图像处理能力

ControlNet条件输入Huggingface稳态扩散Github开源项目模型图像生成扩散模型

本项目利用ControlNet v1.1提供了一种神经网络结构，能够通过附加条件控制预训练的大型扩散模型，与Stable Diffusion兼容。其支持指令化像素到像素的控制，通过边缘图、分割图和关键点等条件输入丰富图像生成方式。即便在小规模数据集下，ControlNet也能在个人设备上快速训练，相关源码及文档可在HuggingFace平台获取，适用于多种图像生成任务，提升图像处理灵活性。

control_v11p_sd15_seg - 利用图像分割提高Stable Diffusion模型的控制策略

扩散模型开源项目图像生成模型ControlNet人工智能图像分割HuggingfaceGithub

ControlNet最新版本利用图像分割为预训练的扩散模型提供条件控制，具备在小数据集上进行端到端任务学习的能力，具有强大的鲁棒性。结合Stable Diffusion v1.5，该模型通过分割图提供附加条件，丰富控制方法。可在个人设备和大型计算集群上处理不同规模的数据，提升训练效率。

sd-vae-ft-ema - 稳定扩散变分自编码器的增强版模型

扩散模型开源项目Stable Diffusion模型图像重建机器学习Github自动编码器Huggingface

sd-vae-ft-ema是一个基于LAION-Aesthetics和LAION-Humans数据集训练的稳定扩散变分自编码器。该模型在图像重建质量尤其是人脸细节方面优于原始VAE，具有更好的rFID、PSNR和SSIM指标表现，可作为扩散器工作流中的即插即用组件。

SeedEdit - Doubao Team - SeedEdit 模型实现文本提示下的图像编辑与再生成

AI工具SeedEdit图像编辑文本提示扩散模型输入图像

SeedEdit 是一种大型扩散模型，能够基于文本提示编辑图像。在图像重建和再生成之间实现平衡，支持高质量图像的连续编辑。其架构设计结合了精准的编辑指令解析能力，能够进行多种形式的图像编辑，保持良好的图像质量。

perfect-rsb-mix-pony-real-anime-sfw-nsfw-v101-sdxl - SDXL混合模型融合真实照片与动漫风格

AI绘画扩散模型图像生成Stable Diffusion模型Github文生图开源项目Huggingface

该模型基于Stable Diffusion XL开发，旨在融合真实照片效果、动漫风格和pony元素。支持多种创作风格，包括写实和卡通，可生成高质量图像。采用diffusers框架，提供text-to-image功能，适合需要在真实感和动漫风格间灵活切换的创作需求。

wuerstchen-prior - 文本驱动的图像生成极致压缩实现高效推理

WürstchenGithub模型开源项目计算成本节约扩散模型Huggingface压缩空间文本生成图像

Würstchen项目采用创新的两阶段压缩方法，实现了高达42倍的空间压缩，显著降低了文本到图像的生成成本。初步压缩由VQGAN完成，随后扩散自编码器进一步优化。关键的Stage C在小型潜空间中高效运行，适应高分辨率图像如2048x2048，仍保持对计算资源的低需求。使用固定预训练的文本编码器CLIP ViT-bigG/14，该模型能够经济高效地产生基于文本提示的高质量图像。

lotus-depth-g-v1-0 - 新一代视觉深度预测与密集估计模型

Github模型密集预测开源项目深度预测Lotus扩散模型Huggingface视觉基础模型

Lotus是一个开源的视觉基础模型，主要用于图像深度估计和密集预测任务。该项目提供完整的模型实现和在线演示平台，可应用于3D场景重建、深度感知等计算机视觉领域。模型采用Apache-2.0许可协议发布，支持学术研究和商业应用开发。

kandinsky-2-2-decoder - 基于CLIP和扩散技术的开源图像生成模型

扩散模型开源项目Kandinsky 2.2模型GithubHuggingface图像生成文本到图像CLIP

Kandinsky 2.2采用CLIP和潜在扩散技术架构，结合Dall-E 2与Latent Diffusion的技术优势。模型具备文本生成图像、图像转换及图像插值等功能，支持生成1024x1024分辨率图像。在COCO_30k数据集评测中，模型FID评分达8.21。该项目完全开源，为图像生成领域提供了新的技术方案。

control_v11p_sd15_mlsd - 条件控制的优化：提升大规模Diffusion模型的定制化能力

扩散模型文本到图像生成Stable Diffusion图像调控ControlNetGithub模型开源项目Huggingface

ControlNet v1.1通过引入额外的输入条件，实现对大型Diffusion模型的精细化控制。该模型在小数据集环境下也能高效学习，并支持在个人设备上进行快速训练。借助ControlNet，Stable Diffusion等模型能够采用如边缘图、分割图和关键点等条件输入，增强控制能力，推动相关应用的发展。

相关文章

Article Cover

denoising-diffusion-pytorch学习资料汇总 - PyTorch实现的去噪扩散概率模型

Article Cover

DiffGesture: 利用扩散模型实现音频驱动的协同语音手势生成

Article Cover

SceneTex: 一种基于扩散先验的高质量室内场景纹理合成新方法

Article Cover

Awesome-Controllable-Generation: 可控生成的未来发展

Article Cover

DDPM-CD: 利用去噪扩散概率模型进行遥感变化检测

Article Cover

MACE: 一种创新的大规模概念消除框架

Article Cover

LECO: 基于低秩适应的概念擦除技术在扩散模型中的应用

Article Cover

Forgedit: 文本引导的图像编辑新突破

Article Cover

MagicDrive: 突破性的街景生成框架 - 多样化3D几何控制与高保真视觉体验

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号