#稳定扩散
riffusion-hobby - 用于实时音乐和音频生成的开源稳定扩散库
Github开源项目Riffusion实时生成音乐生成音频处理稳定扩散
Riffusion是一个开源库,利用稳定扩散技术实现实时音乐和音频生成,并在图像和音频之间进行转换。该库提供扩散管道、命令行工具和互动应用,支持通过Flask服务器进行模型推理。支持CPU、CUDA和MPS后端,推荐使用CUDA支持的GPU以获得最佳性能。虽然项目已停止维护,但用户仍可参考相关资源和指南进行安装和使用。
riffusion-app-hobby - 基于稳定扩散技术的实时音乐开源应用
Github开源项目Next.jsRiffusion音乐生成稳定扩散实时
Riffusion是一款基于稳定扩散技术的实时音乐生成应用程序,支持Next.js、React、Typescript、three.js、Tailwind和Vercel技术栈。用户可通过安装Node v18或更高版本运行开发服务器,并在本地浏览器中查看应用。项目需要配置推理服务器来快速生成模型输出,适用于大GPU用户。请在二次开发时引用相关工作。
dalle-flow - 将文本转化为高清图像的人机交互式工作流
Github开源项目生成艺术稳定扩散DALL·E Flow高清图像生成人机协同
DALL·E Flow是基于文本的人机交互式创意生成工作流,通过DALL·E-Mega、GLID-3 XL和Stable Diffusion生成图像候选,并以CLIP-as-service进行排序优化。此流程不仅提升了图像质量,同时采用SwinIR技术提高至1024x1024高分辨率,让用户在创作中享受自由与多样性。
Dreambooth-Stable-Diffusion - 使用Dreambooth-Stable-Diffusion进行个性化AI训练的指南
Github开源项目影像生成稳定扩散DreamboothJoePennaGPU训练
Dreambooth-Stable-Diffusion项目是一个平台,支持用户在多种环境如Vast.ai、Google Colab以及本地计算机上训练AI模型。该工具适用于电影制作人、概念艺术家和设计师,用于创建和训练个性化角色和风格。项目同时提供详尽的设置指南和教程,支持多种操作环境,旨在提高工作效率和用户体验。
MIGC - 利用MIGC实现多实例文本生成图像
Github开源项目稳定扩散CVPR2024文本生成图像MIGC多实例生成
MIGC项目的多实例生成控制器提升了文本生成图像的多样性和质量,包含COCO-MIG基准测试、在线Colab演示等资源。MIGC提升了属性控制,通过更换不同生成器权重,实现高质量和多样化图像生成。最新Consistent-MIG算法优化迭代编辑功能,保持未修改区域一致性并增强修改实例的一致性。此项目由浙江大学的ReLER实验室和华为监督。
dpm-solver - 扩散概率模型采样解算器
Github开源项目深度学习稳定扩散DPM-SolverDPM-Solver++采样算法
DPM-Solver及其改进版DPM-Solver++是高阶解算器,专为扩散ODE设计,无需额外训练,适用于离散和连续时间的扩散模型。实验表明,DPM-Solver在10到20次函数评估内生成高质量样本。该项目已广泛应用于Stable-Diffusion、DeepFloyd-IF等知名项目,支持多种采样与扩散模型,并集成于Diffusers等流行库。
zero123 - 零样本单图像到3D对象转换技术
Github开源项目稳定扩散3D重建Zero-1-to-3单视图Objaverse
探索一种创新技术,通过一张图像实现高精度的3D对象重建。研究介绍了如何使用Zero123进行新视角合成和3D重建,解决了文字转图像模型中的视角歧义问题,并展示了其在多种应用中的卓越性能。项目还包括Zero123-XL和Objaverse-XL的最新权重发布,以及详细的使用和训练指南,支持研究者和开发者在现有硬件上进行开发和测试。
WarpFusion - 利用AI将视频转换为动画的详细指南
Github开源项目安装指南稳定扩散WarpFusionAI动画本地安装
WarpFusion项目提供详细的安装和使用指南,帮助用户将视频转换为动画。内容包括Windows和Linux系统的本地安装指南、Docker安装步骤和多种教程视频,适合从初学者到高级用户。项目引用Stable Diffusion、ControlNet等多种模型,实现高质量的视频动画转换。
AnimateDiff - 为文本到图像模型赋予动画生成能力的即插即用模块
Github开源项目稳定扩散AnimateDiff文本生成动画运动模块社区模型
AnimateDiff是一个即插即用模块,可将文本到图像模型转变为动画生成器,无需额外训练。通过学习可迁移的运动先验,它适用于Stable Diffusion系列的多种变体。该项目支持使用社区模型生成动画、MotionLoRA控制以及SparseCtrl RGB和草图控制等功能。AnimateDiff增强了文本到视频模型的控制能力,能生成高质量动画。
openOutpaint - AI绘画扩展工具 无限画布实现自由创作
Github开源项目AI绘图JavaScriptAPI稳定扩散openOutpaint
openOutpaint是基于AUTOMATIC1111的Stable Diffusion WebUI API开发的AI绘画扩展工具。该工具提供直观的outpainting功能、无限画布、图层系统和局部重绘等功能,并支持ControlNet等扩展,方便用户创作和编辑AI生成的图像。作为纯JavaScript项目,openOutpaint无需额外依赖,可离线使用,为AI艺术创作提供便捷的工具支持。
ComfyUI_TensorRT - 利用TensorRT优化稳定扩散模型在NVIDIA RTX显卡上的性能
Github开源项目AI模型优化ComfyUI稳定扩散NVIDIA GPUTensorRT
ComfyUI_TensorRT项目为ComfyUI提供了TensorRT节点,旨在优化NVIDIA RTX显卡上稳定扩散模型的性能。该项目支持多个版本的稳定扩散模型,包括SDXL、SVD和AuraFlow等。通过生成GPU专用的TensorRT引擎,实现了模型运行效率的显著提升。项目支持动态和静态引擎构建,适应不同的分辨率和批量大小需求。此外,项目还提供了详细的安装和使用指南,便于用户在ComfyUI中集成和应用。
compute(r)ender - AI图像生成技术快速集成解决方案
AI集成API图像生成AI工具稳定扩散应用开发
compute(r)ender平台提供快速集成AI图像生成服务。该平台利用稳定扩散(Stable Diffusion)技术,通过简单的API调用实现文本到图像、图像到图像的生成功能。开发者可以轻松将AI图像生成能力添加到自己的应用中,显著提高效率并降低成本。平台的API设计简洁易用,集成速度快,是目前市场上将AI图像生成功能融入应用的最便捷方案之一。
sd-webui-discord - Go语言开发的Stable Diffusion WebUI多节点Discord机器人
Github开源项目AI绘图稳定扩散集群部署Discord机器人SD-WEBUI-DISCORD
sd-webui-discord是一个基于Go语言开发的Discord机器人,为Stable Diffusion WebUI提供多节点集群支持。该项目实现了自动任务调度,支持文本生成图像、图像编辑、人脸替换等功能。此外,它还包含用户中心、多语言支持和网站界面,为AI图像生成提供了全面的解决方案。该项目集成了ControlNet、SDXL等先进技术,支持图像分割、背景移除和超分辨率处理。它采用分布式架构,可实现多个Stable Diffusion WebUI节点的负载均衡。项目还提供了用户管理、多语言支持和网页界面,方便用户和管理员操作。
AutoStudio - 提升多轮交互图像生成的主体一致性
Github开源项目大语言模型AutoStudio稳定扩散多轮交互式图像生成主体一致性
AutoStudio是一个创新的多代理框架,专注于解决多轮交互式图像生成中的主体一致性问题。该框架包含主体管理器、布局生成器、监督器和绘图器四个核心组件。通过引入并行U-Net和主体初始化生成方法,AutoStudio实现了连贯多主体图像序列的生成。在CMIGBench基准测试中,该框架在平均Fréchet Inception Distance和平均字符-字符相似度方面分别提升了13.65%和2.83%,展示了其在多轮交互中保持多主体一致性的优异表现。
control_v11p_sd15_softedge - 软边缘检测控制模型 优化稳定扩散图像生成效果
Github开源项目ControlNet图像生成模型稳定扩散Huggingface条件控制软边缘
control_v11p_sd15_softedge是基于ControlNet v1.1的软边缘检测图像控制模型。它能精确控制Stable Diffusion的图像生成过程,支持多种图像处理任务。相比前代模型,优化了训练数据集,提升了边界感知能力,解决了灰度图像过拟合问题,具有更强的鲁棒性。该模型可用于艺术创作、图像编辑等领域,为用户提供更灵活的图像生成控制。
FRESCO - 基于空间-时间对应的零样本视频转换技术
Github开源项目视频转换稳定扩散零样本学习FRESCO时空对应
FRESCO是一种新型零样本视频转换技术,通过建立空间-时间约束来实现跨帧内容的一致转换。该方法结合帧内和帧间对应关系,对特征进行更新以保持与输入视频的一致性。FRESCO无需训练即可使用,兼容现有模型,能生成高质量连贯的视频,性能超过其他零样本方法。
t2i-adapter-canny-sdxl-1.0 - T2I适配器结合Canny检测提升稳定扩散XL的条件控制
Github开源项目深度学习图像生成模型稳定扩散Huggingface边缘检测T2I-Adapter
T2I适配器通过Canny边缘检测增强稳定扩散模型的条件控制能力,由腾讯ARC和Hugging Face联合开发。该模型经由多任务学习在超过300万的高分辨率图文对上训练了20000步,实现了文本到图像生成的更高可控性。使用者需安装必要的依赖,并结合指定的模型与调度程序,以提高图像生成质量。
UltraHighDefinition - 多场景通用的细致图像生成模型
Github开源项目图像生成AI生成模型稳定扩散HuggingfaceLiberteRedmondLEOSAMsFilmGirlUltra
UltraHighDefinition项目结合了FilmGirlUltra和LiberteRedmond的图像特性,旨在生成细节丰富且多功能的高分辨率图像。该模型能为多种场景提供细致的视觉效果,包括电影风、幻想艺术和高对比度肖像等。通过生成大量样本,它展示了丰富的视觉组合和创意可能性,适用于摄影和艺术创作。
AI-infinity-V1-fp16 - 采用稳定扩散的真实感图像生成模型
Github开源项目Hugging Face模型稳定扩散Diffusers文本生成图像HuggingfaceAI Infinity
AI-infinity-V1-fp16项目展示了稳定扩散技术在生成真实感图像中的应用。通过Huggingface API及原创作者的示例,该模型清晰呈现文本到图像的转换能力,特别是在生成自然手部细节方面有卓越表现。了解该项目的主要特性和优势,有助于提升图像处理的创造性。
V-Express - V-Express项目中的多媒体智能转换技术
Github开源项目视频生成模型稳定扩散Huggingface面部分析音频编码器V-Express
V-Express项目通过diffusers库,实现从音频到视频的生成,整合了稳定扩散和文本到图像转换技术。项目中包含wav2vec2-base-960h音频编码器和insightface面部分析模型,支持多媒体内容的高效生成与分析。
HyperRemix - 融合超现实主义与70年代模拟风格的AI图像生成模型
Github开源项目AI绘图模型稳定扩散文本生成图像HuggingfaceHyper Remix超现实主义
HyperRemix是一个开源的AI图像生成模型,结合了HyperRealism 1.2和DreamPhotoGASM的特点。这个模型主要生成超现实主义和70年代模拟风格的图像,包括复古电影场景、人物肖像和科幻画面。HyperRemix能够创造出细节丰富、极具真实感的图像,适用于需要特定风格图片的创意项目。该模型的独特之处在于能够在prompt中使用'hyperrealistic'关键词来增强图像效果。
Fluently-XL-v4 - 排名第四的XL图像生成模型 融合艺术与现实
Github开源项目AI绘图模型训练图像生成模型稳定扩散HuggingfaceFluently XL
Fluently-XL-v4是一款在imgsys.org排名第四的XL图像生成模型。它经过高性能图形加速器训练,特点包括准确的解剖结构、艺术与现实的融合、对比度控制、优质自然场景和无需后期处理的人脸效果。该模型在Automatic1111/ComfyUI中表现出色,适合专业用户使用。Fluently-XL-v4展现了当前图像生成技术的发展水平。
anime-pencil-diffusion - 生成动漫铅笔风格图像的AI工具
Github开源项目图像生成模型稳定扩散AI艺术Huggingface动漫风格Anime-Pencil-Diffusion
该开源项目通过梦境训练精细调整stable diffusion 1.5模型,生成动漫铅笔风格的图像。项目包括多个版本,不断优化以提升图像质量,是AI艺术生成的积极尝试。
t2i-adapter-sketch-sdxl-1.0 - 草图条件下的图像转换与文本生成优化
Github开源项目图像生成模型生成模型稳定扩散Huggingface草图T2I Adapter
该项目为StableDiffusionXL提供了T2I Adapter,实现了在草图条件下的图像转换功能。由腾讯ARC与Hugging Face共同开发,采用PidiNet边缘检测模型训练,能够从草图生成更加精细和可控的图像。与其他模型相比,该模型依托StableDiffusionXL的多个校验点,在处理多样化风格时具有更高的灵活性,适合用于艺术创作和设计。用户可在Doodly Space中试用,支持高分辨率图像处理。项目遵循Apache 2.0开源协议,附有GitHub代码和学术论文供深入研究。
t2i-adapter-depth-midas-sdxl-1.0 - Stable Diffusion与MiDaS深度估计的协作创新
Github开源项目模型训练图像生成模型稳定扩散Huggingface深度感知T2I Adapter
T2I Adapter通过MiDaS深度估计增强StableDiffusionXL的文本到图像转换功能,此项目由腾讯ARC与Hugging Face合作开发。适用于注重图像深度的艺术生成应用,T2I-Adapter-SDXL支持高达2.6亿参数,专为追求图像精细控制的开发者与艺术创作者设计。
realistic-vision-v51 - Realistic Vision v51模型API调用完整指引
人工智能Github开源项目图像生成API接口模型稳定扩散HuggingfaceModelsLab
Realistic Vision v51是一个开源的AI图像生成模型,通过ModelsLab平台提供API服务。该模型支持PHP、Node.js、Java等多种编程语言接入,开发者可免费申请API密钥。平台提供完整API文档,支持图像尺寸、采样步数等参数配置,并通过prompt系统控制生成效果。ModelsLab目前对该模型服务提供优惠方案。
anything-v4.0 - 动漫风格图像生成的高级稳定扩散模型
Github开源项目商业使用AI生成模型稳定扩散Huggingface动漫风格Anything V4.0
Anything V4是一个面向动漫风格图像生成的潜在扩散模型,通过简单提示即可生成细节丰富的图像。支持danbooru标签以及Gradio Web UI操作,并提供Fantasy.ai商业使用许可。该模型兼容多平台,可导出ONNX、MPS及FLAX/JAX格式,支持简化的Python代码进行图像生成,适合生成动漫人物和风景等多样化内容。
Text-to-Image - 开源SDXL文本生成图像模型支持自定义训练及API调用
Github开源项目图像生成模型SDXL稳定扩散LoRAHuggingface文生图
该项目为基于stable-diffusion-xl-base-1.0的LoRA微调模型,通过madebyollin/sdxl-vae-fp16-fix进行VAE训练优化。项目提供Hugging Face API接口,开发者可使用Python实现文本到图像的转换功能。模型采用Safetensors格式发布,方便开发者进行集成部署和二次开发
DreamlikePhotoReal2 - 高细节增强的超现实图像生成模型
Github开源项目AI绘图模型视觉效果稳定扩散HuggingfaceDreamlike PhotoReal高细节
Dreamlike PhotoReal 2模型通过集成840K VAE进行优化,突出细节。该项目结合稳定扩散与文本转图像技术,使其有能力生成高细节和照片级逼真的图像,如乡间别墅的少女或东京街头的时尚女性。该模型专为需要更高精度图像生成的艺术与设计工作者设计,兼容diffusers库。
Analog - 了解如何通过图像生成技术重现70年代复古风格
Github开源项目AI绘图模型稳定扩散Huggingface文本转图像Analog Diffusion复古
项目将Analog Diffusion与Paramount系列及Stable Diffusion技术结合,生成复古风格图像,通过多模型融合实现丰富的艺术表现,适合摄影和媒体艺术领域的应用。
CrystalClearRemix - 结合Crystal Clear系列风格的文本到图像模型
Github开源项目艺术创作模型文本到图像稳定扩散图像合成HuggingfaceCrystal Clear
CrystalClearRemix模型结合了Crystal Clear和Crystal Clear 2的风格,实现文本到图像转换。其详细的比较和示例展示了模型在细节和艺术表现力上的增强,适用于卡通和插画创作,展现出深度和清晰的视觉效果。
Fluently-XL-v2 - SDXL图像模型融合艺术写实风格优化解剖结构表现
Github开源项目模型训练图像生成模型稳定扩散Huggingface人工智能绘画Fluently XL
Fluently XL V2是基于stabilityai/stable-diffusion-xl-base-1.0开发的SDXL图像生成模型,通过显卡训练优化解剖结构表现,结合艺术与写实风格。模型具备对比度控制和自然场景生成能力,采样步数支持20-35步,适配Euler a/Euler采样器,CFG Scale参数范围4-6.5。
doctor-diffusion-s-controllable-vector-art-xl-lora - 多功能矢量艺术LoRA模型,实现复杂与简单风格的自由切换
Github开源项目模型矢量插画稳定扩散LoRAHuggingface人工智能图像生成线条艺术
这款LoRA模型针对矢量艺术生成进行了优化,可通过提示词调整简单或复杂的图像风格。关键词“vector”用于触发生成过程,与稳定扩散技术结合,实现定制化视觉艺术的创作。模型使用CC0/公有领域图像训练,提供简约、复杂和黑白线条等风格选择。支持使用diffusers库加载,并提供Safetensors格式下载,适合追求定制化艺术创作的用户。
RadiantDiversions - 融合多种风格的文本到图像转换解决方案
Github开源项目模型稳定扩散Huggingfacetext-to-image合并模型Dreamlike_Diversions艺术作品
Radiant Diversions 是一个文本到图像转换模型,结合了多个开源项目的元素,呈现出独特的视觉风格。用户可以在无需特殊提示词的情况下,使用'Dreamlike_Diversions'风格来生成高质量、逼真且富有幻想色彩的图像。该模型适用于多种风格场景,提供了广泛的创作案例,是艺术家和设计师的灵感源泉。
superprompt-v1 - T5模型微调提升文本提示扩展能力
Github开源项目文本生成模型稳定扩散HuggingfaceT5模型AI提示词SuperPrompt
SuperPrompt-v1是一个基于T5架构的微调模型,专注于将简洁文本提示扩展为详细描述。作为文本到图像模型的预处理工具,它通过生成丰富提示来优化图像生成效果。该模型可无缝集成到AI工作流程中,为各类创意项目提供支持。
sd-controlnet-depth - 结合深度估计的文本到图像扩散模型
Github开源项目ControlNet图像生成模型稳定扩散深度估计Huggingface条件控制
ControlNet通过深度估计条件增强了Stable Diffusion等模型,允许在个人设备和高性能集群上进行快速训练,即使数据集较小。开发者Lvmin Zhang与Maneesh Agrawala提出的模型具有灵活性,加强了扩散模型的控制方式,推进应用实现。其多种检查点以不同条件训练,提供精细的生成控制。
相关文章
Riffusion:基于稳定扩散的实时音乐生成库
3 个月前
Riffusion: 实时音乐生成的稳定扩散应用
3 个月前
Riffusion: 基于稳定扩散的实时音乐生成项目
3 个月前
Riffusion App: 实时音乐生成的革命性工具
3 个月前
Dreambooth-Stable-Diffusion: 个性化AI图像生成的革命性技术
3 个月前
DALL·E Flow: 人机协作生成高清图像的革命性工作流
3 个月前
Zero-1-to-3: 从单张图像到3D物体的零样本重建技术
3 个月前
DPM-Solver: 快速高效的扩散概率模型采样方法
3 个月前
Riffusion: 基于稳定扩散的实时音乐生成技术
3 个月前