#扩散模型

CCSR - 改善扩散模型在内容一致超分辨率任务中的稳定性
CCSR超分辨率扩散模型图像恢复稳定性Github开源项目
CCSR项目专注于提高扩散模型在内容一致超分辨率任务中的稳定性。项目引入全局标准差(G-STD)和局部标准差(L-STD)两个新指标,用于评估基于扩散的方法在超分辨率结果中的图像级和像素级变化。实验表明,CCSR在真实世界和双三次超分辨率任务中均有优异表现,能够生成更稳定、高质量的图像。项目提供开源代码、预训练模型和在线演示,方便研究人员和开发者使用。
flash-diffusion - 用于加速条件扩散模型的高效蒸馏技术
Flash Diffusion图像生成扩散模型LoRA加速技术Github开源项目
Flash Diffusion是一种用于加速预训练扩散模型图像生成的蒸馏方法。该技术高效、快速、通用且兼容LoRA,在COCO数据集上实现了少步骤图像生成的先进性能。Flash Diffusion只需几小时GPU训练时间和较少可训练参数,适用于文本生成图像、图像修复、换脸和超分辨率等多种任务。它支持UNet和DiT等不同骨干网络,能够显著减少采样步骤,同时保持高质量的图像生成效果。
StableNormal - 提高单目法线估计稳定性的创新方法
StableNormal法向估计扩散模型计算机视觉深度学习Github开源项目
StableNormal是一个针对单目法线估计的开源项目,通过定制扩散先验模型来提高估计的稳定性。该方法减少了扩散模型的随机性,实现了稳定且清晰的法线估计。StableNormal在多个基准测试中表现优异,并能改进多种实际应用,为计算机视觉和3D重建领域提供了新的解决方案。
DragDiffusion - 基于扩散模型的交互式图像编辑工具
DragDiffusion图像编辑扩散模型交互式人工智能Github开源项目
DragDiffusion结合扩散模型和交互式编辑,允许用户通过拖拽操作修改图像。支持真实和生成图像编辑,集成LoRA训练、自定义VAE和FreeU技术,提高编辑质量和效率。这个研究项目为图像处理提供了新的方法和工具。
PnPInversion - 先进的扩散模型逆向技术,仅需3行代码即可提升图像编辑效果
PnPInversion扩散模型图像编辑图像反演性能评估Github开源项目
PnPInversion是一种新型扩散模型逆向方法,通过在源扩散分支纠正逆向偏差,仅需3行代码即可提升图像编辑效果。该技术在保持原图内容的同时提高编辑保真度。研究还提出PIE-Bench基准测试集,包含700张多样化场景和编辑类型的图像。评估显示PnPInversion在编辑性能和推理速度上均优于现有方法。
modular-diffusion - 灵活可扩展的PyTorch扩散模型框架
Modular Diffusion扩散模型PyTorch机器学习模块化设计Github开源项目
Modular Diffusion是一个基于PyTorch的模块化扩散模型框架,为设计和训练自定义扩散模型提供了简洁的API。该框架支持多种噪声类型、调度类型、去噪网络和损失函数,并提供了预构建模块库。Modular Diffusion适用于图像生成和非自回归文本合成等多种应用场景,适合AI研究人员和爱好者使用。其模块化设计简化了新型扩散模型的创建和实验过程。
DiffIR - 创新扩散模型提升图像修复效率
DiffIR图像恢复扩散模型ICCV2023深度学习Github开源项目
DiffIR是一种专为图像修复设计的创新扩散模型。它结合了紧凑的图像修复先验提取网络、动态图像修复变换器和去噪网络,相比传统扩散模型实现了更快速、稳定的图像恢复。在多项图像修复任务中,DiffIR展现出最先进的性能,同时大幅降低计算成本,为图像修复技术开辟了新的发展方向。
MedSegDiff - 创新医学图像分割框架
MedSegDiff医学图像分割扩散模型深度学习人工智能Github开源项目
MedSegDiff是一个创新的医学图像分割框架,基于扩散概率模型(DPM)。该方法通过添加高斯噪声并学习逆向去噪过程来实现分割。利用原始图像作为条件,MedSegDiff从随机噪声生成多个分割图,并进行集成获得最终结果。这种方法能够捕捉医学图像中的不确定性,在多个基准测试中表现优异。MedSegDiff支持多种医学图像分割任务,包括皮肤黑色素瘤和脑肿瘤分割等,并提供详细使用说明和示例。
joliGEN - 集成GAN、扩散和一致性模型的AI图像生成框架
JoliGEN生成式AI图像处理GAN扩散模型Github开源项目
joliGEN是一个集成框架,用于训练自定义的AI图像转换模型。该框架集成了GAN、扩散和一致性模型,可用于配对和无配对的图像转换任务。joliGEN适用于图像生成控制、增强现实和数据集增强等实际场景。它支持快速稳定的训练过程,并提供REST API服务简化部署。凭借丰富的选项和参数,joliGEN可应用于多种图像生成和处理任务。
MagicDrive - 多样化3D几何控制的街景生成框架
MagicDrive街景生成3D几何控制扩散模型计算机视觉Github开源项目
MagicDrive是一个创新街景生成框架,提供多样化的3D几何控制,包括相机姿态、道路地图和3D边界框。通过结合文本描述、定制编码策略和跨视图注意力模块,实现了多相机视角的一致性。该框架能生成高保真街景图像和视频,精确捕捉3D几何特征和场景细节,有助于提升BEV分割和3D物体检测等任务的性能。
Make-An-Audio - 将文本转换为高保真音频的开源扩散模型
Make-An-Audio文本转音频扩散模型音频生成人工智能Github开源项目
Make-An-Audio是一个开源的文本到音频生成项目,基于条件扩散概率模型。该项目能够从文本等多种模态生成高保真音频,支持文本到音频、音频到音频等多种任务。项目提供了预训练模型和简单的命令行操作,方便用户生成自定义音频。此外,项目还包含了详细的训练和评估流程,以及与其他模型的性能比较。
DocDiff - 基于残差扩散模型的轻量级文档图像增强工具
DocDiff文档增强扩散模型图像处理深度学习Github开源项目
DocDiff是一个基于残差扩散模型的轻量级文档增强工具,用于文档去模糊、去噪、二值化和去水印等任务。该模型在128*128分辨率上训练仅需12GB显存。除文档处理外,DocDiff还适用于自然场景图像处理和语义分割。项目提供完整代码和预训练模型,便于快速实现和应用。
ddpm-cd - 基于扩散模型的遥感变化检测方法
DDPM-CD遥感变化检测扩散模型特征提取语义理解Github开源项目
DDPM-CD项目提出了一种新的遥感变化检测方法,利用预训练的去噪扩散概率模型(DDPM)作为特征提取器。该方法首先在大量遥感图像上预训练DDPM模型,然后微调轻量级变化分类器,利用DDPM提取的特征和变化标签进行训练。实验表明,DDPM-CD在多个变化检测数据集上性能优异,展示了DDPM在变化检测中的有效性。
Awesome-Controllable-Generation - 可控生成技术前沿 ControlNet到DreamBooth及最新进展
可控生成扩散模型文本到图像人工智能深度学习Github开源项目
该项目收集了扩散模型中可控生成的前沿论文和资源,涵盖ControlNet、DreamBooth等开创性工作及图像、视频、3D生成的最新应用。内容包括精细合成控制、主题驱动生成和复杂布局操作等技术,汇集80余篇精选论文,全面覆盖可控生成领域的多种技术和应用,为相关研究者提供重要参考。
SceneTex - 基于扩散先验的室内场景高质量纹理合成方法
SceneTex纹理合成室内场景扩散模型3D渲染Github开源项目
SceneTex是一种基于扩散先验的室内场景纹理合成方法。该方法将纹理合成视为RGB空间中的优化问题,采用多分辨率纹理场隐式编码网格外观,并使用交叉注意力解码器确保跨视图风格一致性。SceneTex能为3D-FRONT场景生成高质量、风格一致的纹理,在视觉质量和提示保真度方面优于现有方法。
DiffGesture - 音频驱动协同语音手势生成的扩散模型框架
AI动画语音驱动手势生成扩散模型跨模态学习计算机视觉Github开源项目
DiffGesture是一个基于扩散模型的框架,旨在生成与音频同步的协同语音手势。该框架通过扩散条件生成过程和音频-手势变换器捕捉跨模态关联,并使用手势稳定器和无分类器引导保持时间一致性。DiffGesture生成的手势具有良好的模式覆盖和音频相关性,在多个数据集上展现出优秀性能。
sd-controlnet-mlsd - 结合M-LSD直线检测优化Stable Diffusion的图像生成
Github开源项目条件输入M-LSDHuggingfaceStable Diffusion扩散模型ControlNet模型
该项目介绍了ControlNet神经网络结构,通过加入M-LSD直线检测等条件来控制大规模扩散模型,适用于Stable Diffusion。ControlNet能够在小数据集下进行稳健学习,且可在个人设备上快速训练。项目提供了多种检查点,涵盖边缘检测、深度估计和关键点检测,丰富了大规模扩散模型的控制方式,有助于推进相关应用的发展,最佳效果在Stable Diffusion v1-5结合使用时体现。
CogVideoX-2b - 轻量级开源视频生成模型支持低显存推理
CogVideoX视频生成文本到视频扩散模型人工智能Github开源项目Huggingface模型
CogVideoX-2B是一个基于扩散模型的开源视频生成工具。该模型可将文本描述转化为6秒长、720x480分辨率、8帧/秒的视频。其最低仅需4GB显存即可运行,通过INT8量化还可进一步降低资源消耗。作为入门级选择,CogVideoX-2B在性能和资源使用间取得平衡,适合进行二次开发。模型目前支持英文输入,并提供多种优化方案以提升推理速度和降低显存占用。
kandinsky-3 - 开放源代码的俄罗斯文化文本到图像扩散模型
扩散模型开放源代码模型Github开源项目文本生成图像俄罗斯文化Kandinsky 3.0Huggingface
Kandinsky 3.0是一个开放源代码的文本到图像扩散模型,注重生成与俄罗斯文化相关的图像。相较于Kandinsky2-x系列,该模型使用了更丰富的数据集,并通过增大文本编码器和扩散U-Net模型的规模,提升了文本理解和图像质量。Kandinsky 3.0包括基本型和修补型两种模型,经过不同步数的训练,提供高质量的图像生成。
kandinsky-2-2-decoder-inpaint - Kandinsky 2.2的文本引导图像修复及生成新方法
扩散模型开源项目文本到图像图像合成模型HuggingfaceCLIP模型Kandinsky 2.2Github
Kandinsky 2.2结合Dall-E 2和潜在扩散技术,融入CLIP模型进行文本与图像编码,并实现跨CLIP模态空间的图像扩散映射,提升视觉表现力。支持文本引导的图像修复,并整合于diffusers库。用户可通过修改掩码格式进行编辑。本版本在解析性能上进行了优化,在COCO_30k数据集的零样本测试中表现出色,FID指标显示显著提升。
PixArt-XL-2-512x512 - 快速生成高分辨率图像的高效能模型
Pixart-αGithub生成模型开源项目文本到图像Huggingface深度学习扩散模型模型
PixArt-α是一个基于Transformer架构的文本到图像生成框架,能够从文本提示生成高分辨率图像,最高可达1024像素。相比于Stable Diffusion v1.5,其训练时间仅为10.8%,大幅降低成本与碳排放。用户偏好评估显示,PixArt-α在实现效率与图像质量方面表现卓越,适用于艺术创作、教育用途及生成模型研究。但需要注意的是,其在图像还原现实性和复杂任务的执行上尚有局限。查看其GitHub或arXiv以了解更多细节。
controlnet-depth-sdxl-1.0 - SDXL深度控制网络模型优化图像生成效果
模型开源项目Huggingface扩散模型图像生成SDXL-controlnet深度控制Github人工智能
controlnet-depth-sdxl-1.0是基于Stable Diffusion XL的深度控制网络模型,利用深度图引导图像生成。该模型在300万图像-文本对上训练700 GPU小时,采用fp16混合精度,支持高分辨率输出。项目提供详细使用说明和代码示例,便于集成到SDXL管道中,有助于提升生成图像的质量和细节。
CogVideoX-5b - 专家Transformer驱动的先进文本到视频生成模型
模型Github开源项目Huggingface扩散模型CogVideoX视频生成文本到视频人工智能
CogVideoX-5b是基于专家Transformer的文本到视频生成模型。它可生成6秒720x480分辨率、8帧/秒的视频,支持226个token的英文提示输入。模型采用BF16精度,推理VRAM消耗低至5GB。通过多项优化,CogVideoX-5b在保持视觉质量的同时提高了推理速度,为视频生成研究与应用提供了有力工具。
sdxl-vae - 优化自动编码器提升图像生成细节
模型自编码器扩散模型图像生成Stable DiffusionGithubVAEHuggingface开源项目
SDXL-VAE项目为SDXL模型提供了优化版变分自动编码器。通过增大批量大小和采用指数移动平均,新autoencoder在所有重建指标上超越原始模型。它易于集成到diffusers工作流中,提升生成图像的局部高频细节。在COCO 2017数据集评估中,SDXL-VAE在rFID、PSNR、SSIM等指标上均优于原始VAE,显著改善了图像重建质量。
ddpm-cifar10-32 - 扩散概率模型在CIFAR10数据集上的图像生成应用
图像生成HuggingfaceDDPM深度学习模型人工智能Github扩散模型开源项目
该项目实现了基于扩散概率模型的图像生成。模型利用非平衡热力学原理,在CIFAR10数据集上达到9.46的Inception分数和3.17的FID分数。项目支持DDPM、DDIM和PNDM等多种噪声调度器,可平衡生成质量和推理速度。开发者可使用预训练模型进行推理或自行训练新模型。
marigold-depth-lcm-v1-0 - 基于扩散技术的单目深度估计模型实现零样本迁移
模型扩散模型图像生成Github深度估计Marigold单目深度估计开源项目Huggingface
Marigold-depth-lcm-v1-0是一个创新的单目深度估计模型,基于扩散技术开发。该模型利用Stable Diffusion的视觉知识,通过合成数据微调,实现了对未见数据的零样本迁移能力。在单目深度估计任务中,Marigold展现出优异性能,为计算机视觉领域提供了新的深度估计解决方案。这一成果不仅推动了单目深度估计技术的发展,还展示了扩散模型在此领域的巨大潜力。
IF-I-M-v1.0 - DeepFloyd-IF像素级文本到图像级联扩散模型
Huggingface模型深度学习文本生成图像人工智能Github扩散模型开源项目DeepFloyd-IF
IF-I-M-v1.0是DeepFloyd-IF系列中的400M参数模型,生成64x64像素图像。它使用冻结T5文本编码器和UNet架构,通过三级级联扩散实现文本到图像生成。模型在COCO数据集上获得6.66的零样本FID-30K分数,达到新的技术水平。可通过Hugging Face的diffusers库使用,支持GPU推理和模型微调。
control_v11e_sd15_ip2p - 更好地控制扩散模型的图像处理能力
ControlNet条件输入Huggingface稳态扩散Github开源项目模型图像生成扩散模型
本项目利用ControlNet v1.1提供了一种神经网络结构,能够通过附加条件控制预训练的大型扩散模型,与Stable Diffusion兼容。其支持指令化像素到像素的控制,通过边缘图、分割图和关键点等条件输入丰富图像生成方式。即便在小规模数据集下,ControlNet也能在个人设备上快速训练,相关源码及文档可在HuggingFace平台获取,适用于多种图像生成任务,提升图像处理灵活性。
control_v11p_sd15_seg - 利用图像分割提高Stable Diffusion模型的控制策略
扩散模型开源项目图像生成模型ControlNet人工智能图像分割HuggingfaceGithub
ControlNet最新版本利用图像分割为预训练的扩散模型提供条件控制,具备在小数据集上进行端到端任务学习的能力,具有强大的鲁棒性。结合Stable Diffusion v1.5,该模型通过分割图提供附加条件,丰富控制方法。可在个人设备和大型计算集群上处理不同规模的数据,提升训练效率。
sd-vae-ft-ema - 稳定扩散变分自编码器的增强版模型
扩散模型开源项目Stable Diffusion模型图像重建机器学习Github自动编码器Huggingface
sd-vae-ft-ema是一个基于LAION-Aesthetics和LAION-Humans数据集训练的稳定扩散变分自编码器。该模型在图像重建质量尤其是人脸细节方面优于原始VAE,具有更好的rFID、PSNR和SSIM指标表现,可作为扩散器工作流中的即插即用组件。
SeedEdit - Doubao Team - SeedEdit 模型实现文本提示下的图像编辑与再生成
AI工具SeedEdit图像编辑文本提示扩散模型输入图像
SeedEdit 是一种大型扩散模型,能够基于文本提示编辑图像。在图像重建和再生成之间实现平衡,支持高质量图像的连续编辑。其架构设计结合了精准的编辑指令解析能力,能够进行多种形式的图像编辑,保持良好的图像质量。
perfect-rsb-mix-pony-real-anime-sfw-nsfw-v101-sdxl - SDXL混合模型融合真实照片与动漫风格
AI绘画扩散模型图像生成Stable Diffusion模型Github文生图开源项目Huggingface
该模型基于Stable Diffusion XL开发,旨在融合真实照片效果、动漫风格和pony元素。支持多种创作风格,包括写实和卡通,可生成高质量图像。采用diffusers框架,提供text-to-image功能,适合需要在真实感和动漫风格间灵活切换的创作需求。
wuerstchen-prior - 文本驱动的图像生成 极致压缩实现高效推理
WürstchenGithub模型开源项目计算成本节约扩散模型Huggingface压缩空间文本生成图像
Würstchen项目采用创新的两阶段压缩方法,实现了高达42倍的空间压缩,显著降低了文本到图像的生成成本。初步压缩由VQGAN完成,随后扩散自编码器进一步优化。关键的Stage C在小型潜空间中高效运行,适应高分辨率图像如2048x2048,仍保持对计算资源的低需求。使用固定预训练的文本编码器CLIP ViT-bigG/14,该模型能够经济高效地产生基于文本提示的高质量图像。
lotus-depth-g-v1-0 - 新一代视觉深度预测与密集估计模型
Github模型密集预测开源项目深度预测Lotus扩散模型Huggingface视觉基础模型
Lotus是一个开源的视觉基础模型,主要用于图像深度估计和密集预测任务。该项目提供完整的模型实现和在线演示平台,可应用于3D场景重建、深度感知等计算机视觉领域。模型采用Apache-2.0许可协议发布,支持学术研究和商业应用开发。
kandinsky-2-2-decoder - 基于CLIP和扩散技术的开源图像生成模型
扩散模型开源项目Kandinsky 2.2模型GithubHuggingface图像生成文本到图像CLIP
Kandinsky 2.2采用CLIP和潜在扩散技术架构,结合Dall-E 2与Latent Diffusion的技术优势。模型具备文本生成图像、图像转换及图像插值等功能,支持生成1024x1024分辨率图像。在COCO_30k数据集评测中,模型FID评分达8.21。该项目完全开源,为图像生成领域提供了新的技术方案。
control_v11p_sd15_mlsd - 条件控制的优化:提升大规模Diffusion模型的定制化能力
扩散模型文本到图像生成Stable Diffusion图像调控ControlNetGithub模型开源项目Huggingface
ControlNet v1.1通过引入额外的输入条件,实现对大型Diffusion模型的精细化控制。该模型在小数据集环境下也能高效学习,并支持在个人设备上进行快速训练。借助ControlNet,Stable Diffusion等模型能够采用如边缘图、分割图和关键点等条件输入,增强控制能力,推动相关应用的发展。