#图像生成

MultiDiffusion - 基于预训练模型的多功能可控的图像生成框架
MultiDiffusion图像生成扩散模型文本到图像可控生成Github开源项目
MultiDiffusion 是一个统一框架,通过预训练的文字转图像扩散模型,实现多功能且可控的图像生成,无需进一步训练或微调。该框架支持用户使用各种控制信号,如纵横比和空间引导信号,生成高质量、多样化的图像。MultiDiffusion 优化了多重扩散生成过程,使用一组共享参数或约束,支持局部和全局编辑,适用于如烟雾、火焰和雪等半透明效果。
stability-sdk - 与Stability API交互的高效客户端与命令行工具
stability-sdkAPIPython客户端图像生成ColabGithub开源项目
stability-sdk提供与Stability API交互的便捷解决方案,包括Python客户端和命令行工具,用户可以通过简单的pip命令安装,并使用多种命令行选项生成和放大图像。支持多种风格和采样器选择,文档详实,欢迎访问项目平台查看更多信息及社区贡献的客户端实现。
Wuerstchen - 基于高度压缩潜在空间的文本到图像生成模型
Würstchen图像生成文本条件模型压缩Hugging FaceGithub开源项目
Würstchen通过在高度压缩的潜在空间中进行文本条件处理,能够实现42倍压缩并保留高质量的图像重构。该模型的多阶段压缩策略显著降低了训练时间和计算成本。用户可以借助Colab和diffusers库使用Würstchen生成文本到图像的内容,同时提供Stage B和Stage C的训练脚本便于用户自行训练模型。详细信息请查看官方文档和论文。
gill - 使用多模态语言模型的图像生成方法
GILL多模态语言模型图像生成训练CC3MGithub开源项目
GILL模型可处理交互的图像和文本输入以生成文本、检索图像及生成新图像。本文详细介绍了GILL模型的代码、预训练权重、环境设置、预训检查点和视觉嵌入的安装步骤。此外,还包括推理、训练及评估的指南,及启动Gradio演示的操作步骤。更多详情请参阅相关研究论文及项目页面。
DemoFusion - 民主化高分辨率图像生成
DemoFusion生成式人工智能图像生成高分辨率开源Github开源项目
DemoFusion项目致力于通过优化现有开源生成式人工智能(GenAI)模型,普及高分辨率图像生成技术,减少高额资本投资需求。该框架利用渐进式放大、跳过残差和膨胀采样机制,实现高质量图像生成。DemoFusion的渐进生成过程提供中间预览结果,便于用户快速调整和迭代。此项目旨在对抗大公司垄断,让公众无需支付高昂费用即可使用尖端的高分辨率图像生成技术。
AI-Render - Blender的附加组件,通过Stable Diffusion生成AI图像
AI RenderStable DiffusionBlenderAI艺术图像生成Github开源项目
AI Render是一个Blender的附加组件,通过Stable Diffusion生成AI图像,无需本地运行代码。支持Windows、Mac和Linux系统,兼容Blender 3.0.0及以上版本。查看安装指南、演示和教程视频,还可以生成动画或批处理图像。访问GitHub提交反馈和建议,加入社区分享作品和想法。
Attend-and-Excite - 文本到图像扩散模型中的注意力机制优化
Attend-and-ExciteStable DiffusionAI图像生成跨注意力Github开源项目
研究表明,当前的文本到图像生成模型在特定语义表达方面存在不足。为解决这一问题,提出了基于注意力机制的语义护理(Generative Semantic Nursing, GSN)方法。此方法通过在推理过程中调整模型的交叉注意单元,使生成的图像更准确地反映输入文本中的多个对象和属性。相比其他方法,该技术在各种文本提示下表现出更高的语义忠实度,并提供详细的实现步骤和代码,以便研究人员进行实验与复现。
ComfyUI-to-Python-Extension - 翻译ComfyUI工作流为Python脚本
ComfyUI-to-Python-ExtensionComfyUIPython工作流转换图像生成Github开源项目
ComfyUI-to-Python-Extension工具可以将ComfyUI工作流程转换为Python代码,简化将设计转化为代码执行的过程。它适用于数据科学家、软件开发人员和AI爱好者,支持从创建应用到大规模图像生成任务的实现。现在项目还支持自定义节点,增强了脚本的灵活性和扩展性。
custom-diffusion - 文本到图像扩散模型微调方法
Custom DiffusionStable Diffusion文本到图像扩散模型图像生成多概念定制Github开源项目
该项目提供了一种高效的文本到图像扩散模型微调方法。只需调整部分模型参数,即可在短时间内完成训练,并减少存储需求。项目还支持多概念组合,附带新数据集和完整的训练步骤。适用于多种类别和应用场景。
stylegan2-pytorch - 简单易用的命令行StyleGAN2 Pytorch实现
Stylegan2Pytorch生成对抗网络图像生成自注意力Github开源项目
简便的StyleGAN2 Pytorch实现,无需编程,只需使用命令行即可进行训练。支持多GPU与低数据量训练及图像插值视频生成,适合研究人员和开发者。
BentoDiffusion - 如何使用BentoML部署和运行Stable Diffusion模型的教程
BentoMLStable DiffusionSDXL Turbo图像生成模型部署Github开源项目
本项目示例展示如何使用BentoML部署和运行Stable Diffusion模型,适用于图像生成和操作系统应用开发。需具备Python 3.9+和BentoML基础知识,并可利用Nvidia GPU进行本地测试。内容涵盖依赖安装、服务运行和BentoCloud部署,提供多个模型选择如ControlNet、Latent Consistency Model和Stable Diffusion 2等。
clip-interrogator - 一种提示工程工具
CLIP Interrogator人工智能图像生成Stable DiffusionOpenAIGithub开源项目
CLIP Interrogator结合了OpenAI的CLIP和Salesforce的BLIP,优化生成与给定图像相匹配的文本提示。支持Stable Diffusion和DreamStudio等文本到图像模型。现已作为Stable Diffusion Web UI扩展供使用,并支持在Colab、HuggingFace和Replicate上运行。用户可通过Python虚拟环境安装,并根据系统VRAM配置自定义优化。提供多种预训练CLIP模型供选择,满足不同需求。
Auto1111SDK - 轻量级Python库,支持Stable Diffusion图像生成和编辑
Auto 1111 SDKStable DiffusionPython库图像生成图像编辑Github开源项目
Auto 1111 SDK是一个轻量级Python库,使用Stable Diffusion模型进行图像生成、放大和编辑。它与Automatic 1111 Web UI完美集成,提供文本到图像、图像到图像、修补和外延等多种管道处理功能,支持多种采样器和模型下载。集成了Civit AI,方便直接从网站下载模型。用户可在Colab上通过示例体验该SDK,并参考官方提供的安装和快速上手指南。
ReVersion - 图像关系反演技术及其在扩散模型中的应用
ReVersion关系反演图像生成深度学习Nanyang Technological UniversityGithub开源项目
ReVersion框架提出了一种名为关系反演的新任务,通过从示例图像中捕捉并应用关系提示,生成新的关系特定场景。该项目支持Hugging Face集成,提供预训练模型和基准测试。最新更新包括代码优化和训练代码发布。用户只需克隆仓库并配置Conda环境,即可实现关系反演和多样化图像生成。
scepter - 优化生成模型训练和推理的开源工具
SCEPTER图像生成开源代码库生成模型AlibabGithub开源项目
SCEPTER是一个开源库,专注于生成模型的训练、微调和推理,适用于图像生成、转换和编辑任务。整合了社区常见实现与阿里巴巴同意实验室的专有方法,涵盖实用的生成框架、易用的实现方法和交互界面SCEPTER Studio,可支持自定义图像编辑任务和多种生成模型。它是AIGC研究人员与开发者的理想工具。
sd-scripts - Stable Diffusion模型训练与生成的综合脚本工具库
Stable Diffusion机器学习图像生成模型训练LoRAGithub开源项目
sd-scripts是一个专为Stable Diffusion模型开发的脚本库,集成了多种训练方法如DreamBooth、微调、LoRA和Textual Inversion。此外,它还提供了图像生成和模型转换功能。该项目包含训练脚本、数据准备工具和配置选项,有助于优化AI艺术创作流程。
Perp-Neg-stablediffusion - Perp-Neg算法突破二维扩散模型限制实现三维生成
Perp-NegStable DiffusionAI绘图图像生成3D模型Github开源项目
Perp-Neg-stablediffusion项目开发了新型负面提示算法,将二维扩散模型扩展至三维领域,缓解了Janus问题。该技术改进了Stable Diffusion的图像生成能力,并实现了三维物体生成。项目开源代码允许研究者探索Perp-Neg在图像合成和三维建模等领域的应用。
DMD2 - 改进分布匹配蒸馏的快速图像合成技术
DMD2AI绘图图像生成模型蒸馏文本生成图像Github开源项目
DMD2是一种改进的分布匹配蒸馏技术,用于快速图像合成。通过消除回归损失、集成GAN损失和支持多步采样,该技术显著提升了图像生成的质量和效率。在ImageNet-64x64和COCO 2014数据集上,DMD2的FID评分超越原始模型,同时将推理成本降低500倍。此外,DMD2还能生成百万像素级图像,在少步方法中展现出卓越的视觉效果。
edm2 - 优化扩散模型训练动态的创新技术
EDM2扩散模型图像生成训练动态PyTorchGithub开源项目
EDM2项目开发了改进扩散模型训练动态的新方法。通过重新设计网络层来维持激活、权重和更新幅度的期望值,该方法显著提高了模型效果。在ImageNet-512图像合成中,EDM2使FID得分从2.41提升到1.81。项目还引入了训练后调整指数移动平均(EMA)参数的技术,可精确设置EMA长度,为模型优化开辟新途径。
ect - 开源框架实现高效一致性模型生成
一致性模型ECT生成模型深度学习图像生成Github开源项目
ECT是一个开源框架,采用简单原则方法实现少步生成能力。该框架仅需小幅调优即可获得显著效果,并随训练计算量增加持续提升性能。ECT允许自定义一致性模型,在CIFAR10数据集上通过1-2步迭代生成高质量图像,性能超越先进扩散模型和GAN。
minRF - 轻量级可扩展整流流变换器实现
Rectified FlowAI模型机器学习图像生成TransformersGithub开源项目
minRF是一个开源项目,提供整流流变换器的轻量级实现,适用于深度学习研究。它结合SD3训练方法和LLaMA-DiT架构,包括支持MNIST和CIFAR数据集的基础版本,以及支持ImageNet训练并引入muP技术的高级版本。项目代码结构清晰,便于理解和定制,为研究人员提供了灵活的整流流模型实验环境。
sd-webui-llul - Stable Diffusion WebUI局部放大插件提升AI绘画细节
LLuL潜在空间局部放大Stable Diffusion图像生成Github开源项目
LLuL是Stable Diffusion WebUI的扩展插件,实现潜在空间中的图像局部放大。它提供简单的界面,让创作者能选择特定区域进行高质量放大,同时保持整体构图。插件支持权重调节和蒙版功能,增强了AI绘画的细节控制和画质表现。通过LLuL,AI生成图像的局部细节得到提升,整体画面质量显著改善。
sd-webui-controlnet - 为Stable Diffusion WebUI增添高度可控的图像生成功能
ControlNetStable DiffusionWebUIAI绘图图像生成Github开源项目
sd-webui-controlnet扩展为Stable Diffusion WebUI集成了ControlNet功能。它支持多种控制模型和预处理器,实现像素级精确控制,兼容高分辨率修复和上采样脚本。用户可调整提示词与控制网络的权重,还可使用参考图像进行无模型控制。该扩展显著提升了Stable Diffusion的可控性,为AI图像生成开启更多可能性。
sd-webui-agent-scheduler - Stable Diffusion图像生成工作流管理插件
AgentSchedulerStable Diffusion图像生成工作流WebUI扩展Github开源项目
AgentScheduler是一款为Stable Diffusion Web UI设计的扩展插件,用于优化图像生成工作流。它具备任务队列管理、参数编辑、多检查点批量生成等功能,并支持API访问和回调。该插件兼容A1111和Vladmandic最新版本,安装使用便捷,可有效提升AI图像生成效率。
stable-diffusion-webui-ux - 高度可定制的Stable Diffusion Web界面
Stable Diffusion用户界面AI绘图图像生成定制化Github开源项目
stable-diffusion-webui-ux是一个基于Gradio库的Stable Diffusion Web界面。它实现了DOM样式优化、事件委托、微模板引擎等功能,提高了界面性能。此外,项目集成了工作区定制、无限图像浏览等特性,并支持提示矩阵、注意力机制、文本反转等高级功能,为AI图像生成提供了全面的工具集。
Smooth-Diffusion - 提升扩散模型潜在空间平滑性的新方法
Smooth Diffusion扩散模型图像生成潜在空间CVPR 2024Github开源项目
Smooth Diffusion是一种创新的扩散模型技术,通过优化潜在空间的平滑性来提升模型性能。这种方法在图像插值、反演和编辑任务中展现出显著优势,实现了更连续的过渡效果、更低的反演误差,以及更好的未修改内容保留。通过在训练过程中引入变化约束,Smooth Diffusion为扩散模型研究开辟了新方向。
latent-consistency-model - 高效快速的少步推理图像合成模型
Latent Consistency ModelsAI绘图图像生成扩散模型深度学习Github开源项目
Latent Consistency Models (LCM) 是一种创新的图像生成技术,通过将分类器自由引导蒸馏到模型输入中,实现高效的少步推理。LCM支持文本到图像和图像到图像的生成,在极短时间内生成高质量图像,同时提供多种易用的演示。该技术在保持图像质量的同时显著缩短推理时间,为实时图像生成提供了新的可能性。
UniPC - 统一预测校正框架加速扩散模型采样
UniPC扩散模型快速采样预测器-校正器框架图像生成Github开源项目
UniPC是一个无需训练的扩散模型快速采样框架。它由统一分析形式的校正器UniC和预测器UniP组成,支持任意阶数,适用于像素空间和潜在空间的DPM。UniPC通过提高精度阶数,在5-10步内显著提升采样质量和收敛速度。该框架已成功集成到stable-diffusion-webui和Diffusers等开源项目中,展现了其在AI生成领域的广泛应用潜力。
RectifiedFlow - 直线路径优化的快速数据生成与传输技术
Rectified Flow生成模型图像生成机器学习深度学习Github开源项目
RectifiedFlow是一种新型机器学习方法,通过连接样本间的直线路径并学习ODE模型,建立分布间的传输映射。该方法反复优化ODE轨迹,实现高效的一步生成,在保持多样性的同时提高了FID指标。RectifiedFlow在生成建模和无监督域转移方面具有广泛应用前景,为图像生成和数据处理领域提供了新的解决方案。
Omost - 将大型语言模型转化为图像生成工具
Omost图像生成LLMAI绘画CanvasGithub开源项目
Omost是一个将大型语言模型的编码能力转化为图像合成能力的开源项目。它提供基于Llama3和Phi3的预训练模型,通过虚拟Canvas代理生成图像。项目使用多样化的训练数据,包括真实标注、自动提取数据、强化学习和GPT4多模态能力调优,以提升图像生成质量。
ctm - 创新的单步扩散模型采样方法
CTM扩散模型图像生成单步采样ICLR 2024Github开源项目
Consistency Trajectory Model (CTM)是一种新型扩散模型采样方法。该模型在CIFAR-10和ImageNet 64x64数据集的单步采样中表现出色,FID分数分别为1.73和1.92。CTM提供多种采样选项,平衡了计算资源和样本质量。项目开源了PyTorch实现,包含模型训练、采样和评估代码,方便研究人员使用。
fMRI-reconstruction-NSD - MindEye 从fMRI数据重建和检索视觉信息
fMRI重建MindEye脑活动图像生成自然场景数据集Github开源项目
MindEye项目将fMRI数据转化为图像重建和检索结果。该项目结合对比学习和扩散先验模型,实现大脑活动到视觉信息的映射。MindEye能重建观看的图像,并从LAION数据库中检索相似图像。项目提供代码、预训练模型和使用说明,支持认知神经科学和人工智能的交叉研究。
SiT - 可扩展插值变换器 融合流模型和扩散模型的图像生成新方法
SiT生成模型图像生成机器学习深度学习Github开源项目
SiT项目开发了可扩展插值变换器,这是一种基于扩散变换器的生成模型。通过灵活连接分布,SiT实现了对动态传输生成模型的模块化研究。在条件ImageNet 256x256基准测试中,SiT以相同的骨架和参数超越了DiT,并通过优化扩散系数获得了2.06的FID-50K分数。项目提供PyTorch实现、预训练模型和训练脚本,推动了图像生成技术的进步。
lobe-midjourney-webui - AI图像生成插件 集成Midjourney服务
MidjourneyAI绘图插件LobeHub图像生成Github开源项目
Lobe Midjourney WebUI是一个AI图像生成插件,集成了Midjourney服务。该插件支持自定义提示输入和多样化参数设置,提供直观的操作界面。它可以快速部署,简单配置,让用户轻松创建符合特定需求的AI图像。
autoregressive-diffusion-pytorch - 自回归扩散模型:无向量量化的图像生成方法
自回归扩散图像生成PyTorch深度学习神经网络Github开源项目
autoregressive-diffusion-pytorch是一个基于PyTorch的自回归扩散模型实现,源自'Autoregressive Image Generation without Vector Quantization'论文。模型支持序列和图像输入,无需向量量化即可生成高质量图像。项目提供简洁API接口,包含详细使用说明和示例代码,适合研究人员和开发者探索自回归扩散模型。
吐司 - 免费的在线AI模型共享与图像生成平台
图像生成AI工具Tensor.Art模型托管在线生成图像转换AI图像
探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。