#稳定扩散

riffusion-hobby - 用于实时音乐和音频生成的开源稳定扩散库

Github开源项目Riffusion实时生成音乐生成音频处理稳定扩散

Riffusion是一个开源库，利用稳定扩散技术实现实时音乐和音频生成，并在图像和音频之间进行转换。该库提供扩散管道、命令行工具和互动应用，支持通过Flask服务器进行模型推理。支持CPU、CUDA和MPS后端，推荐使用CUDA支持的GPU以获得最佳性能。虽然项目已停止维护，但用户仍可参考相关资源和指南进行安装和使用。

riffusion-app-hobby - 基于稳定扩散技术的实时音乐开源应用

Github开源项目Next.jsRiffusion音乐生成稳定扩散实时

Riffusion是一款基于稳定扩散技术的实时音乐生成应用程序，支持Next.js、React、Typescript、three.js、Tailwind和Vercel技术栈。用户可通过安装Node v18或更高版本运行开发服务器，并在本地浏览器中查看应用。项目需要配置推理服务器来快速生成模型输出，适用于大GPU用户。请在二次开发时引用相关工作。

dalle-flow - 将文本转化为高清图像的人机交互式工作流

Github开源项目生成艺术稳定扩散DALL·E Flow高清图像生成人机协同

DALL·E Flow是基于文本的人机交互式创意生成工作流，通过DALL·E-Mega、GLID-3 XL和Stable Diffusion生成图像候选，并以CLIP-as-service进行排序优化。此流程不仅提升了图像质量，同时采用SwinIR技术提高至1024x1024高分辨率，让用户在创作中享受自由与多样性。

Dreambooth-Stable-Diffusion - 使用Dreambooth-Stable-Diffusion进行个性化AI训练的指南

Github开源项目影像生成稳定扩散DreamboothJoePennaGPU训练

Dreambooth-Stable-Diffusion项目是一个平台，支持用户在多种环境如Vast.ai、Google Colab以及本地计算机上训练AI模型。该工具适用于电影制作人、概念艺术家和设计师，用于创建和训练个性化角色和风格。项目同时提供详尽的设置指南和教程，支持多种操作环境，旨在提高工作效率和用户体验。

MIGC - 利用MIGC实现多实例文本生成图像

Github开源项目稳定扩散CVPR2024文本生成图像MIGC多实例生成

MIGC项目的多实例生成控制器提升了文本生成图像的多样性和质量，包含COCO-MIG基准测试、在线Colab演示等资源。MIGC提升了属性控制，通过更换不同生成器权重，实现高质量和多样化图像生成。最新Consistent-MIG算法优化迭代编辑功能，保持未修改区域一致性并增强修改实例的一致性。此项目由浙江大学的ReLER实验室和华为监督。

dpm-solver - 扩散概率模型采样解算器

Github开源项目深度学习稳定扩散DPM-SolverDPM-Solver++采样算法

DPM-Solver及其改进版DPM-Solver++是高阶解算器，专为扩散ODE设计，无需额外训练，适用于离散和连续时间的扩散模型。实验表明，DPM-Solver在10到20次函数评估内生成高质量样本。该项目已广泛应用于Stable-Diffusion、DeepFloyd-IF等知名项目，支持多种采样与扩散模型，并集成于Diffusers等流行库。

zero123 - 零样本单图像到3D对象转换技术

Github开源项目稳定扩散3D重建Zero-1-to-3单视图Objaverse

探索一种创新技术，通过一张图像实现高精度的3D对象重建。研究介绍了如何使用Zero123进行新视角合成和3D重建，解决了文字转图像模型中的视角歧义问题，并展示了其在多种应用中的卓越性能。项目还包括Zero123-XL和Objaverse-XL的最新权重发布，以及详细的使用和训练指南，支持研究者和开发者在现有硬件上进行开发和测试。

WarpFusion - 利用AI将视频转换为动画的详细指南

Github开源项目安装指南稳定扩散WarpFusionAI动画本地安装

WarpFusion项目提供详细的安装和使用指南，帮助用户将视频转换为动画。内容包括Windows和Linux系统的本地安装指南、Docker安装步骤和多种教程视频，适合从初学者到高级用户。项目引用Stable Diffusion、ControlNet等多种模型，实现高质量的视频动画转换。

AnimateDiff - 为文本到图像模型赋予动画生成能力的即插即用模块

Github开源项目稳定扩散AnimateDiff文本生成动画运动模块社区模型

AnimateDiff是一个即插即用模块，可将文本到图像模型转变为动画生成器，无需额外训练。通过学习可迁移的运动先验，它适用于Stable Diffusion系列的多种变体。该项目支持使用社区模型生成动画、MotionLoRA控制以及SparseCtrl RGB和草图控制等功能。AnimateDiff增强了文本到视频模型的控制能力，能生成高质量动画。

openOutpaint - AI绘画扩展工具无限画布实现自由创作

Github开源项目AI绘图JavaScriptAPI稳定扩散openOutpaint

openOutpaint是基于AUTOMATIC1111的Stable Diffusion WebUI API开发的AI绘画扩展工具。该工具提供直观的outpainting功能、无限画布、图层系统和局部重绘等功能，并支持ControlNet等扩展，方便用户创作和编辑AI生成的图像。作为纯JavaScript项目，openOutpaint无需额外依赖，可离线使用，为AI艺术创作提供便捷的工具支持。

ComfyUI_TensorRT - 利用TensorRT优化稳定扩散模型在NVIDIA RTX显卡上的性能

Github开源项目AI模型优化ComfyUI稳定扩散NVIDIA GPUTensorRT

ComfyUI_TensorRT项目为ComfyUI提供了TensorRT节点，旨在优化NVIDIA RTX显卡上稳定扩散模型的性能。该项目支持多个版本的稳定扩散模型，包括SDXL、SVD和AuraFlow等。通过生成GPU专用的TensorRT引擎，实现了模型运行效率的显著提升。项目支持动态和静态引擎构建，适应不同的分辨率和批量大小需求。此外，项目还提供了详细的安装和使用指南，便于用户在ComfyUI中集成和应用。

compute(r)ender - AI图像生成技术快速集成解决方案

AI集成API图像生成AI工具稳定扩散应用开发

compute(r)ender平台提供快速集成AI图像生成服务。该平台利用稳定扩散（Stable Diffusion）技术，通过简单的API调用实现文本到图像、图像到图像的生成功能。开发者可以轻松将AI图像生成能力添加到自己的应用中，显著提高效率并降低成本。平台的API设计简洁易用，集成速度快，是目前市场上将AI图像生成功能融入应用的最便捷方案之一。

sd-webui-discord - Go语言开发的Stable Diffusion WebUI多节点Discord机器人

Github开源项目AI绘图稳定扩散集群部署Discord机器人SD-WEBUI-DISCORD

sd-webui-discord是一个基于Go语言开发的Discord机器人，为Stable Diffusion WebUI提供多节点集群支持。该项目实现了自动任务调度，支持文本生成图像、图像编辑、人脸替换等功能。此外，它还包含用户中心、多语言支持和网站界面，为AI图像生成提供了全面的解决方案。该项目集成了ControlNet、SDXL等先进技术，支持图像分割、背景移除和超分辨率处理。它采用分布式架构，可实现多个Stable Diffusion WebUI节点的负载均衡。项目还提供了用户管理、多语言支持和网页界面，方便用户和管理员操作。

AutoStudio - 提升多轮交互图像生成的主体一致性

Github开源项目大语言模型AutoStudio稳定扩散多轮交互式图像生成主体一致性

AutoStudio是一个创新的多代理框架，专注于解决多轮交互式图像生成中的主体一致性问题。该框架包含主体管理器、布局生成器、监督器和绘图器四个核心组件。通过引入并行U-Net和主体初始化生成方法，AutoStudio实现了连贯多主体图像序列的生成。在CMIGBench基准测试中，该框架在平均Fréchet Inception Distance和平均字符-字符相似度方面分别提升了13.65%和2.83%，展示了其在多轮交互中保持多主体一致性的优异表现。

control_v11p_sd15_softedge - 软边缘检测控制模型优化稳定扩散图像生成效果

Github开源项目ControlNet图像生成模型稳定扩散Huggingface条件控制软边缘

control_v11p_sd15_softedge是基于ControlNet v1.1的软边缘检测图像控制模型。它能精确控制Stable Diffusion的图像生成过程，支持多种图像处理任务。相比前代模型，优化了训练数据集，提升了边界感知能力，解决了灰度图像过拟合问题，具有更强的鲁棒性。该模型可用于艺术创作、图像编辑等领域，为用户提供更灵活的图像生成控制。

FRESCO - 基于空间-时间对应的零样本视频转换技术

Github开源项目视频转换稳定扩散零样本学习FRESCO时空对应

FRESCO是一种新型零样本视频转换技术，通过建立空间-时间约束来实现跨帧内容的一致转换。该方法结合帧内和帧间对应关系，对特征进行更新以保持与输入视频的一致性。FRESCO无需训练即可使用，兼容现有模型，能生成高质量连贯的视频，性能超过其他零样本方法。

t2i-adapter-canny-sdxl-1.0 - T2I适配器结合Canny检测提升稳定扩散XL的条件控制

Github开源项目深度学习图像生成模型稳定扩散Huggingface边缘检测T2I-Adapter

T2I适配器通过Canny边缘检测增强稳定扩散模型的条件控制能力，由腾讯ARC和Hugging Face联合开发。该模型经由多任务学习在超过300万的高分辨率图文对上训练了20000步，实现了文本到图像生成的更高可控性。使用者需安装必要的依赖，并结合指定的模型与调度程序，以提高图像生成质量。

UltraHighDefinition - 多场景通用的细致图像生成模型

Github开源项目图像生成AI生成模型稳定扩散HuggingfaceLiberteRedmondLEOSAMsFilmGirlUltra

UltraHighDefinition项目结合了FilmGirlUltra和LiberteRedmond的图像特性，旨在生成细节丰富且多功能的高分辨率图像。该模型能为多种场景提供细致的视觉效果，包括电影风、幻想艺术和高对比度肖像等。通过生成大量样本，它展示了丰富的视觉组合和创意可能性，适用于摄影和艺术创作。

AI-infinity-V1-fp16 - 采用稳定扩散的真实感图像生成模型

Github开源项目Hugging Face模型稳定扩散Diffusers文本生成图像HuggingfaceAI Infinity

AI-infinity-V1-fp16项目展示了稳定扩散技术在生成真实感图像中的应用。通过Huggingface API及原创作者的示例，该模型清晰呈现文本到图像的转换能力，特别是在生成自然手部细节方面有卓越表现。了解该项目的主要特性和优势，有助于提升图像处理的创造性。

V-Express - V-Express项目中的多媒体智能转换技术

Github开源项目视频生成模型稳定扩散Huggingface面部分析音频编码器V-Express

V-Express项目通过diffusers库，实现从音频到视频的生成，整合了稳定扩散和文本到图像转换技术。项目中包含wav2vec2-base-960h音频编码器和insightface面部分析模型，支持多媒体内容的高效生成与分析。

HyperRemix - 融合超现实主义与70年代模拟风格的AI图像生成模型

Github开源项目AI绘图模型稳定扩散文本生成图像HuggingfaceHyper Remix超现实主义

HyperRemix是一个开源的AI图像生成模型，结合了HyperRealism 1.2和DreamPhotoGASM的特点。这个模型主要生成超现实主义和70年代模拟风格的图像，包括复古电影场景、人物肖像和科幻画面。HyperRemix能够创造出细节丰富、极具真实感的图像，适用于需要特定风格图片的创意项目。该模型的独特之处在于能够在prompt中使用'hyperrealistic'关键词来增强图像效果。

Fluently-XL-v4 - 排名第四的XL图像生成模型融合艺术与现实

Github开源项目AI绘图模型训练图像生成模型稳定扩散HuggingfaceFluently XL

Fluently-XL-v4是一款在imgsys.org排名第四的XL图像生成模型。它经过高性能图形加速器训练，特点包括准确的解剖结构、艺术与现实的融合、对比度控制、优质自然场景和无需后期处理的人脸效果。该模型在Automatic1111/ComfyUI中表现出色，适合专业用户使用。Fluently-XL-v4展现了当前图像生成技术的发展水平。

anime-pencil-diffusion - 生成动漫铅笔风格图像的AI工具

Github开源项目图像生成模型稳定扩散AI艺术Huggingface动漫风格Anime-Pencil-Diffusion

该开源项目通过梦境训练精细调整stable diffusion 1.5模型，生成动漫铅笔风格的图像。项目包括多个版本，不断优化以提升图像质量，是AI艺术生成的积极尝试。

t2i-adapter-sketch-sdxl-1.0 - 草图条件下的图像转换与文本生成优化

Github开源项目图像生成模型生成模型稳定扩散Huggingface草图T2I Adapter

该项目为StableDiffusionXL提供了T2I Adapter，实现了在草图条件下的图像转换功能。由腾讯ARC与Hugging Face共同开发，采用PidiNet边缘检测模型训练，能够从草图生成更加精细和可控的图像。与其他模型相比，该模型依托StableDiffusionXL的多个校验点，在处理多样化风格时具有更高的灵活性，适合用于艺术创作和设计。用户可在Doodly Space中试用，支持高分辨率图像处理。项目遵循Apache 2.0开源协议，附有GitHub代码和学术论文供深入研究。

t2i-adapter-depth-midas-sdxl-1.0 - Stable Diffusion与MiDaS深度估计的协作创新

Github开源项目模型训练图像生成模型稳定扩散Huggingface深度感知T2I Adapter

T2I Adapter通过MiDaS深度估计增强StableDiffusionXL的文本到图像转换功能，此项目由腾讯ARC与Hugging Face合作开发。适用于注重图像深度的艺术生成应用，T2I-Adapter-SDXL支持高达2.6亿参数，专为追求图像精细控制的开发者与艺术创作者设计。

realistic-vision-v51 - Realistic Vision v51模型API调用完整指引

人工智能Github开源项目图像生成API接口模型稳定扩散HuggingfaceModelsLab

Realistic Vision v51是一个开源的AI图像生成模型，通过ModelsLab平台提供API服务。该模型支持PHP、Node.js、Java等多种编程语言接入，开发者可免费申请API密钥。平台提供完整API文档，支持图像尺寸、采样步数等参数配置，并通过prompt系统控制生成效果。ModelsLab目前对该模型服务提供优惠方案。

anything-v4.0 - 动漫风格图像生成的高级稳定扩散模型

Github开源项目商业使用AI生成模型稳定扩散Huggingface动漫风格Anything V4.0

Anything V4是一个面向动漫风格图像生成的潜在扩散模型，通过简单提示即可生成细节丰富的图像。支持danbooru标签以及Gradio Web UI操作，并提供Fantasy.ai商业使用许可。该模型兼容多平台，可导出ONNX、MPS及FLAX/JAX格式，支持简化的Python代码进行图像生成，适合生成动漫人物和风景等多样化内容。

Text-to-Image - 开源SDXL文本生成图像模型支持自定义训练及API调用

Github开源项目图像生成模型SDXL稳定扩散LoRAHuggingface文生图

该项目为基于stable-diffusion-xl-base-1.0的LoRA微调模型，通过madebyollin/sdxl-vae-fp16-fix进行VAE训练优化。项目提供Hugging Face API接口，开发者可使用Python实现文本到图像的转换功能。模型采用Safetensors格式发布，方便开发者进行集成部署和二次开发

DreamlikePhotoReal2 - 高细节增强的超现实图像生成模型

Github开源项目AI绘图模型视觉效果稳定扩散HuggingfaceDreamlike PhotoReal高细节

Dreamlike PhotoReal 2模型通过集成840K VAE进行优化，突出细节。该项目结合稳定扩散与文本转图像技术，使其有能力生成高细节和照片级逼真的图像，如乡间别墅的少女或东京街头的时尚女性。该模型专为需要更高精度图像生成的艺术与设计工作者设计，兼容diffusers库。

Analog - 了解如何通过图像生成技术重现70年代复古风格

Github开源项目AI绘图模型稳定扩散Huggingface文本转图像Analog Diffusion复古

项目将Analog Diffusion与Paramount系列及Stable Diffusion技术结合，生成复古风格图像，通过多模型融合实现丰富的艺术表现，适合摄影和媒体艺术领域的应用。

CrystalClearRemix - 结合Crystal Clear系列风格的文本到图像模型

Github开源项目艺术创作模型文本到图像稳定扩散图像合成HuggingfaceCrystal Clear

CrystalClearRemix模型结合了Crystal Clear和Crystal Clear 2的风格，实现文本到图像转换。其详细的比较和示例展示了模型在细节和艺术表现力上的增强，适用于卡通和插画创作，展现出深度和清晰的视觉效果。

Fluently-XL-v2 - SDXL图像模型融合艺术写实风格优化解剖结构表现

Github开源项目模型训练图像生成模型稳定扩散Huggingface人工智能绘画Fluently XL

Fluently XL V2是基于stabilityai/stable-diffusion-xl-base-1.0开发的SDXL图像生成模型，通过显卡训练优化解剖结构表现，结合艺术与写实风格。模型具备对比度控制和自然场景生成能力，采样步数支持20-35步，适配Euler a/Euler采样器，CFG Scale参数范围4-6.5。

doctor-diffusion-s-controllable-vector-art-xl-lora - 多功能矢量艺术LoRA模型，实现复杂与简单风格的自由切换

Github开源项目模型矢量插画稳定扩散LoRAHuggingface人工智能图像生成线条艺术

这款LoRA模型针对矢量艺术生成进行了优化，可通过提示词调整简单或复杂的图像风格。关键词“vector”用于触发生成过程，与稳定扩散技术结合，实现定制化视觉艺术的创作。模型使用CC0/公有领域图像训练，提供简约、复杂和黑白线条等风格选择。支持使用diffusers库加载，并提供Safetensors格式下载，适合追求定制化艺术创作的用户。

RadiantDiversions - 融合多种风格的文本到图像转换解决方案

Github开源项目模型稳定扩散Huggingfacetext-to-image合并模型Dreamlike_Diversions艺术作品

Radiant Diversions 是一个文本到图像转换模型，结合了多个开源项目的元素，呈现出独特的视觉风格。用户可以在无需特殊提示词的情况下，使用'Dreamlike_Diversions'风格来生成高质量、逼真且富有幻想色彩的图像。该模型适用于多种风格场景，提供了广泛的创作案例，是艺术家和设计师的灵感源泉。

superprompt-v1 - T5模型微调提升文本提示扩展能力

Github开源项目文本生成模型稳定扩散HuggingfaceT5模型AI提示词SuperPrompt

SuperPrompt-v1是一个基于T5架构的微调模型，专注于将简洁文本提示扩展为详细描述。作为文本到图像模型的预处理工具，它通过生成丰富提示来优化图像生成效果。该模型可无缝集成到AI工作流程中，为各类创意项目提供支持。

sd-controlnet-depth - 结合深度估计的文本到图像扩散模型

Github开源项目ControlNet图像生成模型稳定扩散深度估计Huggingface条件控制

ControlNet通过深度估计条件增强了Stable Diffusion等模型，允许在个人设备和高性能集群上进行快速训练，即使数据集较小。开发者Lvmin Zhang与Maneesh Agrawala提出的模型具有灵活性，加强了扩散模型的控制方式，推进应用实现。其多种检查点以不同条件训练，提供精细的生成控制。

相关文章

Article Cover

Riffusion:基于稳定扩散的实时音乐生成库

Article Cover

Riffusion: 实时音乐生成的稳定扩散应用

Article Cover

Riffusion: 基于稳定扩散的实时音乐生成项目

Article Cover

Riffusion App: 实时音乐生成的革命性工具

Article Cover

Dreambooth-Stable-Diffusion: 个性化AI图像生成的革命性技术

Article Cover

DALL·E Flow: 人机协作生成高清图像的革命性工作流

Article Cover

Zero-1-to-3: 从单张图像到3D物体的零样本重建技术

Article Cover

DPM-Solver: 快速高效的扩散概率模型采样方法

Article Cover

Riffusion: 基于稳定扩散的实时音乐生成技术

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号