#图像合成
neural-doodle - 通过深度神经网络将简笔画转化为艺术作品
Neural Doodle风格迁移深度学习图像合成Python脚本Github开源项目
Neural Doodle项目使用深度神经网络技术,将简笔画转化为艺术作品。该项目基于Semantic Style Transfer和Neural Patches算法,通过提取风格图像的注释补丁逐步转移到目标图像中。用户可以调整参数和输入数据,以实现接近照片级的效果。项目提供多种使用示例和详细安装说明,支持GPU和CPU渲染,适用于多种系统。
AdversarialNetsPapers - 综合资源集合揭示生成对抗网络的应用与理论进展
生成对抗网络图像翻译面部属性操作图像合成卷积神经网络Github开源项目
AdversarialNetsPapers 作为一个致力于生成对抗网络(GANs)的论文与资源集,包括影像转换、面部属性操作等应用范畴以及理论研究和机器学习实践。项目自2014年以来,积累包含大量关键论文与对应代码,为研究者与开发者构建了一个深度学习、图像处理及生成模型的知识库。
axodox-machinelearning - 基于C++的Stable Diffusion图像生成库,支持ControlNet
Stable DiffusionControlNetONNX图像合成C++Github开源项目
该库是一款基于Stable Diffusion的图像生成工具,支持txt2img、img2img和图像修复功能,完全采用C++实现,无需依赖Python。其高性能和简化的部署过程非常适用于实时图形应用和游戏开发。库还支持ControlNet,通过输入图像来引导生成过程,并提供GPU加速的特征提取功能,如姿势估计、深度估计和边缘检测。此外,库包含多个代码示例和预编译模型,便于开发者快速集成和测试。
deforum-stable-diffusion - 开源AI图像合成项目 支持2D/3D动画生成
Deforum Stable Diffusion机器学习图像合成开源项目AI艺术Github
Deforum Stable Diffusion是一个开源AI图像合成项目,支持生成插值、2D和3D动画。该项目提供CLIP、美学和调色板条件控制等功能,使稳定扩散技术更易于使用和定制。尽管目前已停止维护,用户仍可通过fork继续开发。Deforum为创作者提供了灵活的AI图像生成工具,可用于创作短视频、艺术动画、视觉效果等领域,为视频制作和创意内容创作提供强大支持。
Awesome-Diffusion-Transformers - 扩散模型与Transformer融合的前沿研究进展汇总
Diffusion TransformersAI生成计算机视觉深度学习图像合成Github开源项目
本列表汇总了扩散模型与Transformer架构结合的最新研究进展,涵盖图像、视频、语音和3D等多个领域。每个项目均包含发表时间、会议信息、任务类型和资源链接。列表持续更新,为研究者和开发者提供便捷途径跟踪这一快速发展的领域动态。
Awesome-Sketch-Based-Applications - 草图应用资源汇总 涵盖多领域前沿技术
Sketch-Based Applications图像合成图像编辑计算机视觉深度学习Github开源项目
这是一个全面的草图应用资源集合,涵盖图像合成、编辑、检索和3D建模等多个领域。项目汇总了大量相关研究论文和代码,包括自动合成、风格迁移和文本引导等最新技术。该资源为研究人员和开发者提供了探索草图应用前沿技术的重要参考。
AniPortrait - 基于音频的高质量肖像动画生成框架
AniPortrait人像动画音频驱动图像合成人工智能Github开源项目
AniPortrait是一个基于音频和参考肖像图像生成高质量动画的开源框架。该项目支持自驱动、面部重演和音频驱动三种模式,可生成逼真的肖像动画。项目开源了预训练模型,并提供了详细的安装指南、推理命令和训练流程。AniPortrait为数字内容创作者提供了一种制作生动肖像动画的新方法,拓展了视觉内容创作的可能性。
Awesome-Image-Composition - 图像合成领域资源精选 从论文到工具的全面集合
图像合成AIGC深度学习计算机视觉人工智能Github开源项目
Awesome-Image-Composition汇集了图像合成领域的核心资源,包括论文、数据集和相关链接。涵盖图像融合、调和、阴影生成和对象放置等多个子领域,该项目为研究人员和开发者提供了全面的参考资料。此外,项目还包含在线演示和实用工具箱,方便用户实践和探索图像合成技术。收录了超过100篇高质量论文和20多个开源工具,是图像合成研究和应用的首选资源库。
DiffSynth-Studio - 多功能扩散模型引擎 支持长视频合成与图像生成
DiffSynth Studio扩散模型视频生成图像合成AI绘画Github开源项目
DiffSynth Studio是一款开源的扩散模型引擎,整合了ExVideo、Stable Diffusion 3和Kolors等多种AI模型。该引擎支持长视频合成、高分辨率图像生成、卡通渲染和视频风格化等功能。项目持续更新,重点探索扩散模型在视频合成领域的应用潜力。
Cones-V2 - 多主体自定义图像合成的创新方法
Cones 2图像合成残差嵌入布局引导采样Stable DiffusionGithub开源项目
Cones-V2是一种新型图像合成技术,通过文本编码器微调学习残差嵌入,实现多主体自定义图像生成。每个主体仅需5KB存储空间,并采用布局引导采样方法实现精确排列。基于Stable Diffusion模型,Cones-V2可生成场景、宠物、玩具和人物等多样化高质量图像。
MagicClothing - 基于服装的可控图像生成技术
Magic ClothingAI绘图图像合成虚拟试衣深度学习Github开源项目
Magic Clothing 是一个开源项目,作为OOTDiffusion的分支版本,专注于基于服装的可控图像合成。该项目支持调节服装和文本提示的强度,并集成了IP-Adapter-FaceID和ControlNet-Openpose技术,实现人像和姿势的条件控制。项目提供512和768分辨率的模型权重,以及Python和Gradio接口用于推理和演示。这些特性为服装相关的图像生成领域开辟了新的可能性。
anycost-gan - 高效灵活的GAN模型实现实时图像生成与编辑
Anycost GAN图像合成交互式编辑计算成本StyleGAN2Github开源项目
Anycost GAN是一种新型生成对抗网络,可在不同计算资源下生成一致的高质量图像。该模型支持多分辨率和自适应通道训练,实现实时图像编辑。项目提供预训练模型、演示和评估代码,方便研究人员和开发者探索高效GAN技术。
MDT - MDTv2图像合成模型:更快收敛和卓越性能
Masked Diffusion Transformer图像合成深度学习人工智能计算机视觉Github开源项目
MDTv2是一种先进的深度学习图像合成模型,在ImageNet数据集上实现了1.58的FID分数,创造新的业界标准。该模型采用掩码潜在建模技术,提高了图像语义理解能力,学习速度比先前模型快10倍以上。MDTv2在图像生成质量和训练效率方面都有显著提升,为计算机视觉和人工智能领域带来了新的可能性。
GAN-Inversion - GAN逆映射技术的最新进展及应用综述
GAN Inversion3D生成对抗网络图像合成潜在空间编辑StyleGANGithub开源项目
本资源集合汇总了GAN逆映射技术的最新研究成果,包括2D和3D方法、预训练模型、潜在空间编辑及其在图像生成、操纵和理解等领域的应用。作为相关综述论文的补充,该项目追踪并总结了这一快速发展领域的进展,为研究人员和开发者提供全面参考。
VITON-HD - 实现高分辨率虚拟试衣的新方法
虚拟试衣高分辨率图像合成深度学习VITON-HDGithub开源项目
VITON-HD是一个创新的虚拟试衣项目,能够生成1024x768高分辨率的虚拟试衣图像。该项目通过ALIAS归一化和生成器技术解决了高分辨率下的图像错位问题,同时保留了输入图像的细节。与现有方法相比,VITON-HD在合成图像质量方面有明显提升,为虚拟试衣技术的发展提供了新的研究方向。
unpaint - C++实现的高性能Stable Diffusion图像合成工具
UnpaintStable DiffusionAI绘图图像合成DirectMLGithub开源项目
Unpaint是一款C++实现的Stable Diffusion图像合成工具,支持txt2img、img2img、inpainting等基本功能和ControlNet增强功能。该工具在单进程中运行整个图像生成过程,无需依赖Python,简化了部署流程。Unpaint基于DirectML,兼容NVIDIA和AMD GPU等硬件。用户可从本地或HuggingFace安装模型,便于将Stable Diffusion集成到各类应用中。
kandinsky-2-2-decoder-inpaint - Kandinsky 2.2的文本引导图像修复及生成新方法
扩散模型开源项目文本到图像图像合成模型HuggingfaceCLIP模型Kandinsky 2.2Github
Kandinsky 2.2结合Dall-E 2和潜在扩散技术,融入CLIP模型进行文本与图像编码,并实现跨CLIP模态空间的图像扩散映射,提升视觉表现力。支持文本引导的图像修复,并整合于diffusers库。用户可通过修改掩码格式进行编辑。本版本在解析性能上进行了优化,在COCO_30k数据集的零样本测试中表现出色,FID指标显示显著提升。
ddpm-ema-celebahq-256 - 无条件图像生成的高效去噪扩散模型
ProgressiveGAN开源项目CIFAR10图像合成模型DDPMHuggingface噪声调度器Github
项目通过去噪扩散概率模型实现高质量无条件图像生成,结合无平衡态热力学概念,在CIFAR10和256x256 LSUN数据集上取得了优异的Inception和FID评分。用户可以灵活选择噪声调度器以平衡生成质量与速度,该模型也支持渐进式无损压缩,作为自动回归解码的推广。详情请参照官方推理与训练示例。
CrystalClearRemix - 结合Crystal Clear系列风格的文本到图像模型
Github模型图像合成开源项目文本到图像Crystal Clear艺术创作稳定扩散Huggingface
CrystalClearRemix模型结合了Crystal Clear和Crystal Clear 2的风格,实现文本到图像转换。其详细的比较和示例展示了模型在细节和艺术表现力上的增强,适用于卡通和插画创作,展现出深度和清晰的视觉效果。
pixart-900m-1024-ft-v0.6 - 使用稳定扩散技术的创新图像生成模型
Huggingface图像合成stable-diffusion未来城市开源项目模型cyberpunk风格AI绘图Github
此开源项目利用稳定扩散技术,专注于文本生成图像的应用,确保高质量的图像输出。以ptx0/pixart-900m-1024-ft-large为基础,通过simpletuner调试,适合描绘多种艺术场景,如外星市场、奇幻森林、赛博朋克城市等。用户可借助自定义文本提示,生成详尽且清晰的图像,支持去除模糊、裁剪及不美观的元素。适合创意者、设计师,激发艺术创意与设计灵感。
ddpm-celebahq-256 - 高效的无条件图像生成与渐进解压的新型扩散模型
图像合成Github开源项目DDPMHuggingface图像降噪深度学习无条件图像生成模型
本项目使用去噪扩散概率模型,实现了高质量的图像合成,借鉴了不平衡热力学,创新性地结合了变分界限和去噪评分匹配,并通过Langevin动力学实现渐进的解压缩。模型在CIFAR10数据集上取得了9.46的Inception得分和3.17的最新FID得分,在256x256 LSUN上样本质量与ProgressiveGAN相近。推理中可使用离散噪声调度器如ddpm、ddim或pndm,ddim和pndm在速度和质量上表现出色。项目支持用户自主训练模型,并提供官方示例用于推理和训练。
ddpm-ema-church-256 - DDPM模型在图像合成中的应用与性能分析
Denoising Diffusion Probabilistic Models噪声调度器Huggingface深度学习模型图像合成Github开源项目无条件生成
ddpm-ema-church-256项目采用DDPM模型进行图像合成,结合扩散概率模型与Langevin动态,取得CIFAR10数据集Inception分数9.46和FID分数3.17。支持DDPM、DDIM、PNDM调度器推理,实现质量与速度平衡,并提供预训练管道以生成高质量图像。项目为图像生成与压缩提供了创新思路。
相关文章
Neural Doodle: 将涂鸦变成艺术品的深度学习项目
3 个月前
生成对抗网络(GAN)的发展与应用
3 个月前
Axodox-MachineLearning: 纯C++实现的Stable Diffusion和ControlNet
3 个月前
Awesome Diffusion Transformers:推动生成式AI的革命性进展
3 个月前
DiffSynth-Studio:释放扩散模型的魔力
3 个月前
AniPortrait:革命性的音频驱动人像动画合成技术
3 个月前
Cones-V2: 突破性的多主体可定制图像合成技术
3 个月前
Awesome-Image-Composition: 深度学习图像合成技术的全面综述
3 个月前
Magic Clothing: 可控服装驱动的图像合成技术
3 个月前