#扩散模型

PixArt-sigma - Diffusion Transformer模型实现4K文本到图像生成
PixArt-Σ文生图扩散模型Transformer4K图像生成Github开源项目
PixArt-Σ是一个基于Diffusion Transformer的文本到图像生成模型。通过Weak-to-Strong训练方法,该模型支持4K分辨率生成,采用300长度T5 token和SDXL VAE。相比前代PixArt-α,PixArt-Σ具有更强的生成能力。项目提供开源代码、多种分辨率预训练权重、diffusers库集成支持和在线演示。
AsyncDiff - 通过异步去噪实现扩散模型并行加速
AsyncDiff扩散模型模型并行异步去噪加速推理Github开源项目
AsyncDiff是一种创新的扩散模型加速方案,通过将模型分割并在多设备上异步并行处理来提高效率。这种方法巧妙利用了扩散步骤间的相似性,将顺序去噪转变为异步过程,有效打破了组件间的依赖关系。AsyncDiff不仅大幅降低了推理时间,还保持了生成质量。目前已支持Stable Diffusion、ControlNet和AnimateDiff等多种主流扩散模型。
VideoSwap - 通过语义点对应技术实现自定义主体替换的新型视频编辑框架
VideoSwap视频主体替换语义点对应扩散模型自定义概念Github开源项目
VideoSwap是一种新型视频编辑框架,通过语义点对应技术实现自定义主体替换,同时保持背景不变。该方法支持用户交互,可对齐主体运动轨迹并修改形状。相比现有技术,VideoSwap在真实视频中展现出优越的主体替换效果,为视频编辑开辟新方向。
SVGDreamer - 文本驱动的SVG图形生成工具
SVGDreamerSVG生成文本引导扩散模型CVPR2024Github开源项目
SVGDreamer是一款基于扩散模型的矢量图形生成工具。它能根据文本描述生成高质量、可编辑的SVG图像。该工具支持多种风格,如图标、油画、像素艺术、低多边形和素描等。SVGDreamer在保证图像质量的同时,也注重矢量图形的可编辑性,为图形设计和创作提供了新的可能性。
tree-ring-watermark - 为扩散模型图像提供不可见鲁棒水印
Tree-Ring Watermarks图像水印扩散模型水印检测傅里叶变换Github开源项目
Tree-Ring Watermarks是一种为扩散模型图像设计的水印技术。通过在初始噪声的傅里叶变换中嵌入特殊模式,生成的水印在图像中不可见,但可通过反向扩散检测。该技术有效验证和保护AI生成图像,能抵抗多种攻击并保持图像质量。项目提供完整实现代码,包含主要实验、CLIP评分计算和FID评估功能。
IP-Adapter-Instruct - 多任务图像生成的突破性技术
IP Adapter Instruct图像生成条件控制扩散模型多任务学习Github开源项目
IP-Adapter-Instruct是一种先进的图像生成技术,融合了自然图像条件和指令提示。这个模型能够高效处理多种任务,包括风格迁移和对象提取,同时保持高质量输出。它克服了传统文本提示在描述图像风格和细节方面的局限性,提供了更精确的图像生成控制。IP-Adapter-Instruct在实际应用中表现出色,为扩散模型的发展提供了新的可能性。
HiDiffusion - 无需训练即可提升扩散模型分辨率和速度的方法
HiDiffusion扩散模型高分辨率AI绘图图像生成Github开源项目
HiDiffusion是一种提高预训练扩散模型分辨率和速度的方法,无需额外训练。通过添加单行代码即可集成到现有扩散管道中。它支持文本到图像、图像到图像和修复等多种任务,适用于Stable Diffusion XL、Stable Diffusion v2等主流模型。HiDiffusion还兼容ControlNet等下游任务,为图像生成提供更高质量和效率。
DiffusionMat - 创新图像抠图的序列细化学习方法
DiffusionMat图像抠图扩散模型三元图alpha遮罩Github开源项目
DiffusionMat是一种新型图像抠图框架,利用扩散模型实现从粗略到精细alpha遮罩的过渡。它将图像抠图视为序列细化学习过程,通过对trimaps添加噪声并迭代去噪来引导预测。框架的主要创新包括校正模块和Alpha可靠性传播技术,旨在提高抠图精度和一致性。DiffusionMat还采用了专门的损失函数来优化alpha遮罩的边缘精度和区域一致性。在多个图像抠图基准测试中,该方法展现出优于现有技术的性能。
SpeeD - 通过时间步长优化实现扩散模型训练加速
SpeeD扩散模型训练加速AI生成深度学习Github开源项目
SpeeD是一种创新的扩散模型训练加速技术,通过对时间步长的深入分析和优化,将训练过程分为加速、减速和收敛三个区域。该方法采用重采样和重加权策略,实现了训练速度的显著提升。SpeeD易于与现有模型集成,能有效提高扩散模型的训练效率,为图像生成等任务提供了新的解决方案。
Upscale-A-Video - 基于扩散模型的时序一致视频超分辨率技术
Upscale-A-Video视频超分辨率扩散模型AI视频处理YouHQ数据集Github开源项目
Upscale-A-Video是一个视频超分辨率项目,采用扩散模型技术处理低分辨率视频和文本提示输入。该项目重点解决真实世界视频的时序一致性问题,并发布了YouHQ数据集用于模型训练和评估。Upscale-A-Video旨在提高视频分辨率的同时保持帧间连贯性。
X-Adapter - 实现旧版扩散模型插件通用兼容的适配器
X-Adapter扩散模型插件兼容Stable DiffusionControlNetGithub开源项目
X-Adapter是一个通用适配器,使旧版扩散模型(如SD1.5)的预训练插件能够直接与升级后的模型(如SDXL)兼容,无需重新训练。该项目支持ControlNet、LoRA等多种插件,提供了设置指南、推理代码和使用示例,提高了模型升级后的灵活性和效率。这为研究人员和开发者提供了实用的工具和资源。
Visual-Style-Prompting - 创新的视觉风格提示方法实现文本到风格化图像生成
Visual Style Prompting文本到图像生成扩散模型自注意力机制风格控制Github开源项目
Visual-Style-Prompting项目提出创新的视觉风格提示方法,通过交换自注意力层键值实现多样化图像生成并保持特定风格。无需微调即可使用,生成图像忠实反映参考风格。经广泛评估,该方法在多种风格和文本提示下表现优异,准确匹配文本描述并最佳呈现参考风格。
Text2Tex - 文本驱动的3D网格高质量纹理生成方法
Text2Tex纹理合成扩散模型3D网格文本驱动Github开源项目
Text2Tex是一种新型3D网格纹理生成方法,利用文本提示和扩散模型创建高质量纹理。该技术融合局部修复和深度感知图像扩散模型,从多角度逐步合成高分辨率局部纹理。通过动态分割渲染视图和自动生成视图序列,Text2Tex有效避免了不一致和拉伸问题,同时优化了纹理更新过程。实验结果显示,在文本驱动纹理生成领域,Text2Tex的性能明显优于现有技术。
sliders - 扩散模型的精确控制工具
Concept SlidersLoRAAI绘图扩散模型图像编辑Github开源项目
Concept Sliders是一个开源项目,为扩散模型提供精确控制的LoRA适配器。通过滑块界面,用户可以微调生成图像的属性,如年龄和表情。项目支持多个Stable Diffusion版本(v1.4、v2.1和XL),提供文本和图像概念滑块的训练脚本,以及实时演示和真实图像编辑功能。Concept Sliders为AI图像生成带来了新的精确控制方法,GitHub上可查看完整项目详情。
DEADiff - DEADiff模型实现高效风格化图像生成
DEADiff图像风格化文本到图像生成扩散模型计算机视觉Github开源项目
DEADiff是一种风格化扩散模型,通过参考图像风格和文本提示生成新颖图像。该模型利用解耦表示技术,实现高效风格迁移和文本引导图像生成。DEADiff可将多种风格应用于不同场景,同时保持内容准确性。这项研究由中国科学技术大学和字节跳动的团队完成,并在CVPR 2024上发表。
res-adapter - 扩散模型的无缝分辨率适配器
ResAdapter扩散模型分辨率适配图像生成AI绘图Github开源项目
ResAdapter是一款轻量级分辨率适配器,可集成至各类扩散模型中实现任意分辨率图像生成。无需额外训练和推理,ResAdapter通过少量参数(SD1.5为0.9M, SDXL为0.5M)支持广泛的分辨率范围。项目提供使用指南、预训练权重及与多种模型的集成示例,展示了其在文本生成图像和图像编辑等任务中的应用效果。
PAIR-Diffusion - 多模态对象级图像编辑的开源解决方案
PAIR Diffusion图像编辑多模态对象级别扩散模型Github开源项目
PAIR-Diffusion是一个开源的多模态对象级图像编辑器。它支持外观编辑、形状修改、对象添加和变体生成等功能,可通过参考图像和文本进行控制。该项目基于PyTorch开发,兼容各种扩散模型。PAIR-Diffusion在SDv1.5上实现,并使用COCO-Stuff数据集微调。这个工具为对象级图像编辑提供了灵活精确的解决方案。
DeepFloyd IF - 突破性的开源文本到图像AI模型
AI工具DeepFloyd IFAI绘图文本生成图像扩散模型开源模型
DeepFloyd IF是一款开源的文本到图像生成AI模型,采用冻结文本编码器和三级级联像素扩散模块架构。该模型在COCO数据集上实现6.66的零样本FID分数,生成的图像逼真度高且具备语言理解能力。DeepFloyd IF支持梦境生成、风格迁移、超分辨率和图像修复等多项功能,展现了大型UNet架构在级联扩散模型中的潜力,为文本到图像合成技术的发展提供了新方向。
IDM VTON Online - 先进的虚拟试衣技术平台
AI工具虚拟试衣IDM VTON扩散模型人工智能用户体验
IDM VTON Online平台运用先进的两流条件扩散模型技术,实现高度逼真的虚拟试衣效果。平台兼容多种服装类型和体型,保证试衣过程的流畅性和包容性。简单的操作流程让用户轻松上传照片、选择服装,即刻体验逼真的虚拟试衣。平台设计注重多元化和易用性,支持多设备访问,让虚拟试衣成为随时随地的便捷体验。
SeeSR - 基于语义感知的实景图像超分辨率方法
SeeSR图像超分辨率语义感知真实世界图像扩散模型Github开源项目
SeeSR是一种新型语义感知实景图像超分辨率技术,结合稳定扩散模型和语义信息提升低分辨率图像质量。该方法已被CVPR2024接收并在GitHub开源。SeeSR可处理多种场景图像,并支持快速推理。项目提供预训练模型、测试数据集和使用说明,便于研究和应用。此外,项目还包含DAPE和SeeSR模型的训练指南,以及用于生成训练数据的工具。SeeSR采用tiled vae方法节省GPU内存,并提供Gradio演示界面。该技术在多个真实世界图像数据集上展现出优异性能。
q-diffusion - 扩散模型的创新量化方法
Q-Diffusion量化扩散模型图像生成深度学习Github开源项目
Q-Diffusion是一种针对扩散模型的后训练量化方法。它能将无条件扩散模型压缩至4位精度,同时保持接近原模型的性能。该方法通过时间步感知校准和分离捷径量化技术解决了扩散模型量化的主要难题。Q-Diffusion不仅适用于无条件图像生成,还可用于文本引导的图像生成,首次实现了4位权重下的高质量生成效果。这一技术为扩散模型的高效实现开辟了新途径。
Forgedit - 基于学习和遗忘的文本引导图像编辑方法
Forgedit图像编辑文本引导扩散模型深度学习Github开源项目
Forgedit是一种新型文本引导图像编辑方法,采用视觉-语言联合优化框架,能在30秒内重建原始图像。该方法在扩散模型的文本嵌入空间中引入向量投影机制,实现身份相似度和编辑强度的独立控制。Forgedit还提出了新的遗忘机制,解决了在单图像上微调扩散模型时的过拟合问题。基于Stable Diffusion构建的Forgedit在TEdBench基准测试中表现优异,CLIP评分和LPIPS评分均超过了之前的最佳方法。
LECO - 扩散模型概念调整的低秩适应技术
LECO扩散模型概念擦除LoRAStable DiffusionGithub开源项目
LECO是一个基于低秩适应技术的开源项目,专注于扩散模型中概念的擦除、强调和替换。该项目支持多种预训练模型,提供灵活的配置选项,并可在不同GPU平台上运行。通过精心设计的提示词和LoRA权重,LECO不仅可以擦除概念,还能进行概念调整。这为研究人员和开发者提供了探索和改进AI生成模型概念控制能力的有力工具。
ComfyUI-ELLA - 融合LLM的语义增强扩散模型插件
ELLAComfyUIAI绘图语义对齐扩散模型Github开源项目
ComfyUI-ELLA是一个为ComfyUI设计的ELLA实现插件,通过时间步语义连接器(TSC)技术动态调整采样过程中的语义特征。该插件结合了扩散模型和大语言模型的优势,支持ControlNet和Lora触发词,并提供多个工作流示例。ComfyUI-ELLA易于安装和使用,能显著提升图像生成的语义对齐效果,为AI图像创作提供更精准的文本到图像转换能力。
TCD - 新型少步采样蒸馏技术用于高质量图像生成
TCD扩散模型生成AI图像生成LoRAGithub开源项目
TCD是一种创新的蒸馏技术,可将预训练扩散模型的知识提炼为高效的少步采样器。该技术具有灵活的NFE、优异的生成质量、可调节的细节程度和广泛的适用性。TCD无需对抗训练即可实现高质量的少步生成,有效避免了模式崩溃问题。项目开源了推理代码和基于SDXL Base 1.0蒸馏的TCD-SDXL模型,可与多种现有模型和技术无缝集成。
MACE - 扩散模型中的大规模概念擦除技术
MACE概念消除扩散模型人工智能图像生成Github开源项目
MACE是一种用于扩散模型的大规模概念擦除框架。该技术可同时擦除多达100个概念,并在泛化性和特异性间达成平衡。通过结合闭式交叉注意力优化和LoRA微调,MACE能有效消除不需要的概念信息。在对象、名人、显式内容和艺术风格擦除等多项任务评估中,MACE的性能均超越了现有方法。
MotionDirector - 自定义文本到视频模型的动作生成
MotionDirector文本到视频运动定制扩散模型AI视频生成Github开源项目
MotionDirector是一款文本到视频扩散模型定制工具,可根据视频样本学习特定动作概念并应用于视频生成。该工具支持单个或多个参考视频,能准确捕捉动作特征,实现外观和动作的同步定制。此外,MotionDirector还具备图像动画和电影镜头效果功能,为AI视频创作提供更多可能性。
awesome-video-generation - 全面汇集视频生成研究的前沿资源库
视频生成扩散模型文本到视频图像到视频AI视频Github开源项目
资源库系统整理视频生成领域的前沿研究论文和资源,包括文本生成视频、图像生成视频、个性化视频生成等多个方向。内容涵盖论文列表、链接、数据集、产品介绍和常见问题解答。这为研究人员和开发者提供了全面了解视频生成技术发展的专业参考。
RoHM - 基于扩散模型的稳健人体运动重建系统
RoHM人体动作重建扩散模型AMASS数据集SMPL-XGithub开源项目
RoHM是一个基于扩散模型的人体运动重建系统。它可以从含噪声和遮挡的输入数据中,在统一的全局坐标系下重建完整合理的人体运动。该系统将任务分为全局轨迹和局部运动两部分,并采用创新的条件模块捕捉二者关联。RoHM在多个标准数据集上表现优异,为人体运动重建研究提供了新的解决方案。
diffusion-rig - 基于个性化先验的人脸外观编辑技术
DiffusionRig人脸编辑个性化先验扩散模型计算机视觉Github开源项目
DiffusionRig是一个基于扩散模型和3D面部重建的人脸外观编辑项目。它通过学习个性化先验知识,实现了对光照、表情和头部姿势等属性的精准调整,同时保持身份特征。该项目首先在FFHQ数据集上训练通用模型,然后可快速适应个人照片集。DiffusionRig为人像编辑和虚拟试妆等应用提供了新的技术方案。
ViViD - 视频虚拟试衣技术运用扩散模型实现逼真效果
ViViD视频虚拟试穿扩散模型数据集深度学习Github开源项目
ViViD是一个基于扩散模型的视频虚拟试衣开源项目。该技术能将静态服装图片自然融入动态视频,实现逼真的虚拟试衣效果。项目提供完整代码、预训练模型和数据集,便于研究和开发。ViViD在计算机视觉和AI领域展现潜力,为时尚电商和虚拟现实等行业提供新的应用可能。
DiffBIR - 基于扩散模型的多任务盲图像修复方法
DiffBIR图像修复扩散模型盲图像超分辨率人脸修复Github开源项目
DiffBIR是一种基于扩散模型的盲图像修复方法,可处理多种图像退化问题,如盲超分辨率、盲人脸修复和盲图像去噪。该方法采用两阶段架构,先进行退化移除,再利用IRControlNet重建图像。DiffBIR在真实世界图像上展现出优异的修复效果,能生成高质量、真实的细节。项目提供开源代码、预训练模型和详细使用说明。
Diffusion-SVC - 高效实时语音转换系统
Diffusion-SVC语音转换AI模型扩散模型ContentVecGithub开源项目
Diffusion-SVC是一个基于扩散模型的语音转换项目,专注于实现高质量的实时语音转换。该系统以低显存占用、快速训练和推理为特点,并针对浅扩散和实时应用进行了优化。Diffusion-SVC支持多种预训练模型和编码器,适用于不同规模的GPU,可灵活搭配使用。通过与其他声学模型级联,系统能进一步提升音频质量并降低性能消耗,为语音转换技术带来新的可能性。
RPG-DiffusionMaster - 多模态大语言模型驱动的高质量文图生成框架
RPG文本到图像生成多模态大语言模型扩散模型区域扩散Github开源项目
RPG-DiffusionMaster是一款创新的文本到图像生成框架,结合多模态大语言模型的提示重述和区域规划能力,以及互补的区域扩散技术。该项目支持多种扩散模型架构,兼容GPT-4等专有模型和开源本地模型,实现先进的图像生成和编辑效果。框架具有高度灵活性和广泛适应性,能生成超高分辨率图像,是一个功能强大的AI创作工具。
CatVTON - 高效轻量的虚拟试衣扩散模型
CatVTON虚拟试衣扩散模型参数高效训练简化推理Github开源项目
CatVTON是一个高效的虚拟试衣扩散模型,采用轻量级网络结构和参数高效训练方法。该模型总参数量为899.06M,其中可训练参数仅49.57M,在1024x768分辨率下推理时显存占用不到8G。项目开源了完整代码、预训练权重,并提供在线演示。CatVTON支持ComfyUI和Gradio部署,在VITON-HD和DressCode数据集上展现出优异性能,推动了虚拟试衣技术的发展。
HumanSD - 基于骨骼引导的人体图像生成模型
HumanSD人物图像生成骨架引导扩散模型Stable DiffusionGithub开源项目
HumanSD是一个基于骨骼引导的扩散模型,用于生成可控的人体图像。该模型通过热图引导去噪损失对稳定扩散模型进行微调,增强了骨骼条件的控制能力,同时减轻了灾难性遗忘。HumanSD在三个大规模人体数据集上训练,其中两个是新建立的。相比现有方法,HumanSD在复杂姿势、绘画风格、多人场景和细节方面表现更佳。