#AI绘图

FollowYourEmoji - 基于扩散模型的自由风格肖像动画生成框架
Follow-Your-Emoji人像动画AI绘图表情控制自由风格Github开源项目
FollowYourEmoji是一个基于扩散模型的肖像动画生成框架。该项目利用参考肖像和目标关键点序列,生成可精细控制的自由风格肖像动画。框架支持通过表情符号进行简单控制,实现个性化动画效果。项目开源了预训练模型和推理代码,便于研究人员和开发者进行进一步探索和应用。
UltraPixel - 先进的超高分辨率图像合成技术
UltraPixel高分辨率图像合成AI绘图深度学习图像生成Github开源项目
UltraPixel是一种超高分辨率图像合成技术,可生成2K到4K分辨率的高质量图像。项目支持文本引导、个性化和ControlNet图像生成,为图像合成和视觉艺术领域提供了新的工具。通过详细的提示词,可以生成细节丰富的图像。
FlashFace - 高保真人物图像个性化生成技术
FlashFace人像定制AI绘图身份保持图像生成Github开源项目
FlashFace是一项人物图像个性化生成技术,可在几秒内实现零样本人物图像定制,具有出色的身份保持能力。该技术能精确响应语言提示,并支持灵活调整身份图像和语言提示的控制强度。FlashFace可使用单张或多张参考人脸,对非名人也能有效保持身份特征,同时支持改变人物年龄或性别。
I_am_a_person - 全面AI数字人解决方案
数字人AI绘图语音识别大语言模型语音合成Github开源项目
I_am_a_person是一个综合性AI数字人项目,涵盖形象生成、语音识别、大语言模型和语音合成等多个领域。项目整合了人体姿态估计、换脸技术、AI绘图等先进技术,并探索真人和虚拟数字人驱动技术。通过多种语音和语言模型的应用,该项目旨在实现全方位的AI数字人解决方案。
ArtSpew - 高效生成大规模随机AI艺术图像的开源工具
ArtSpewStable DiffusionAI绘图随机图像生成高速渲染Github开源项目
ArtSpew是一个基于Stable Diffusion技术的开源AI艺术生成工具。该项目能快速创建大量随机或主题性图像,适合艺术创意探索和灵感获取。支持SD1.5和SDXL模型,提供批量生成和随机提示词等功能。ArtSpew可用于创意寻找和大规模图像实验,为AI艺术创作提供新的可能性。
sygil-webui - 基于Stable Diffusion的开源图像生成界面
Stable DiffusionAI绘图图像生成WebUI机器学习Github开源项目
sygil-webui是基于Stable Diffusion的开源Web界面,集成了文本生成图像、图像编辑等功能。项目支持GFPGAN和RealESRGAN图像增强,提供生成预览和CPU运行选项。适用于Windows和Linux系统,界面友好,可自定义程度高。
stable-diffusion-nvidia-docker - 基于Docker的Stable Diffusion简易部署方案
Stable DiffusionAI绘图DockerGPU多GPU支持Github开源项目
该项目为Stable Diffusion模型提供基于Docker的部署方案,适用于Ubuntu和Windows系统。通过简单的Web UI界面,用户可在GPU设备上轻松运行Stable Diffusion,支持多GPU推理、图像到图像转换和图像修复功能。项目集成了Stable Diffusion 2.0模型,为AI图像生成技术的使用提供便捷途径。
Kolors - 高性能文本到图像生成模型
KolorsAI绘图文生图模型开源多语言Github开源项目
Kolors是一款基于潜在扩散的大规模文本到图像生成模型。该模型经过数十亿文本-图像对的训练,在视觉质量、复杂语义理解和中英文字符渲染方面表现优异。Kolors支持中英文输入,能够出色地理解和生成中国特色内容。通过人工和机器评估,Kolors在多个维度上展现了业界领先的性能,适用于各种高质量图像生成任务。
LayerDiffuse - 基于潜在透明度的图层扩散技术 突破图像处理新境界
LayerDiffuse透明图层扩散潜在透明度AI绘图图像处理Github开源项目
LayerDiffuse是一个开源图像处理项目,专注于利用潜在透明度实现透明图层扩散。目前支持Stable Diffusion WebUI和Diffusers CLI平台,未来将扩展到Gradio、Colab和Huggingface Space。项目计划发布数据集和训练代码,为图像处理领域提供新的技术方案。通过创新的图层处理工具,LayerDiffuse开启了图像创作的无限可能。
stable-diffusion-webui-forge - 增强版AI图像生成平台 -,打造更快、更强大的深度学习体验
Stable DiffusionWebUI ForgeAI绘图开发平台实验功能Github开源项目
Stable Diffusion WebUI Forge是原版SD WebUI的增强平台,专注于资源优化和推理加速。该项目集成了FreeU V2、ControlNet和IP-Adapter等先进特性,支持一键安装和多版本CUDA/PyTorch兼容。Forge旨在为开发者提供更友好的环境,同时为用户带来高效的AI图像生成体验。
facechain - AI驱动的快速个性化肖像生成框架
FaceChainAI绘图人像生成身份保持模型训练Github开源项目
FaceChain FACT是一款创新的AI肖像生成框架,仅需一张照片即可在10秒内生成保持身份特征的个性化肖像。该框架支持文本到图像和修复式生成,并与ControlNet和LoRA兼容。通过解耦训练技术,FaceChain FACT提升了图像质量、文本遵循能力和风格保持能力,实现了高度可控和真实的肖像生成。
MagicClothing - 基于服装的可控图像生成技术
Magic ClothingAI绘图图像合成虚拟试衣深度学习Github开源项目
Magic Clothing 是一个开源项目,作为OOTDiffusion的分支版本,专注于基于服装的可控图像合成。该项目支持调节服装和文本提示的强度,并集成了IP-Adapter-FaceID和ControlNet-Openpose技术,实现人像和姿势的条件控制。项目提供512和768分辨率的模型权重,以及Python和Gradio接口用于推理和演示。这些特性为服装相关的图像生成领域开辟了新的可能性。
sd-webui-regional-prompter - 优化图像生成的区域提示词控制扩展
Regional Prompterstable-diffusion-webuiAI绘图图像生成提示词Github开源项目
sd-webui-regional-prompter是Stable Diffusion WebUI的一个扩展,可为图像不同区域指定独立提示词。支持多种区域划分方式,包括垂直、水平、2D以及基于蒙版和提示词的指定。此外还具备LoRA应用控制、区域可视化和API功能,提高了AI图像生成的精确度和灵活性。
StableCascade - 基于高压缩潜在空间的快速文本到图像生成模型
Stable CascadeAI绘图图像生成潜在空间高效模型Github开源项目
Stable Cascade是一种新型文本到图像生成模型,采用高度压缩的潜在空间技术。它由三个阶段组成,可将1024x1024图像压缩至24x24尺寸,同时保持清晰重建效果。与Stable Diffusion相比,该模型实现了更快的推理速度和更低的训练成本。Stable Cascade在提示对齐和图像质量方面表现优异,并支持微调、ControlNet和LoRA等多种扩展功能,适用于对效率要求较高的应用场景。
ComfyUI_InstantID - ComfyUI原生集成InstantID,优化人物图像生成效率
ComfyUIInstantIDAI绘图开源项目人工智能Github
ComfyUI_InstantID项目为ComfyUI提供原生InstantID支持,无需依赖diffusers库。该扩展完全集成ComfyUI,支持多ID生成、IPAdapter风格化和额外ControlNet控制。通过降低CFG和注入噪声等技术,有效减少水印并提升生成质量。项目还支持SDXL Turbo/Lighting模型,适合需要高效、灵活人物图像生成的用户。
PhotoMaker - AI逼真人像照片定制生成工具
PhotoMakerAI绘图图像生成自定义人像Stable DiffusionGithub开源项目
PhotoMaker是一款创新的AI图像生成工具,能在几秒内定制生成高度逼真的人像照片。它保持了优秀的身份保真度,同时兼顾多样性和高质量输出。作为适配器,PhotoMaker可与其他基础模型和LoRA模块无缝协作。该工具支持真实照片和风格化生成,为创作提供灵活空间。PhotoMaker操作简单,无需额外训练即可实现个性化,为AI驱动的图像生成领域带来积极影响。
EditAnything - 多功能图像编辑与生成开源项目
EditAnythingAI绘图图像编辑图像生成深度学习Github开源项目
EditAnything 是一个开源的图像编辑和生成项目,集成了 Segment Anything、ControlNet 和 Stable Diffusion 等先进技术。该项目支持跨图像区域拖放、服装和发型编辑、美颜处理等功能,还可根据简单草图生成图像。EditAnything 提供自定义编辑和布局对齐控制,为图像处理带来更大灵活性,适用于创意设计和内容创作等领域。
rich-text-to-image - 富文本格式提升文本到图像生成的精确控制
Rich-Text-to-Image文本生成图像AI绘图Stable DiffusionICCV 2023Github开源项目
Rich-Text-to-Image项目利用富文本格式信息增强文本到图像生成的控制能力。该项目通过字体大小、颜色、样式和脚注等格式实现精确的颜色渲染、局部风格控制和详细区域合成。这种方法支持token显式重新加权,可与Stable Diffusion等主流模型集成,提供更精细的图像生成控制。项目开源了代码实现,并提供在线演示和相关论文,为文本到图像生成领域开辟了新的研究方向。
Mix-of-Show - 去中心化低秩适应技术实现扩散模型的多概念定制
Mix-of-Show扩散模型多概念定制低秩适应AI绘图Github开源项目
Mix-of-Show是一种扩散模型多概念定制技术,通过去中心化低秩适应实现单概念和多概念融合。它可生成高质量动漫和真实人物图像,无需正则化数据集,支持区域可控的多概念采样。该项目开源了训练和推理代码,为扩散模型个性化提供新方案。
StreamDiffusion - 高性能实时AI图像生成框架
StreamDiffusion实时生成AI绘图图像处理深度学习Github开源项目
StreamDiffusion是一个开源的高性能AI图像生成框架,专为实时交互应用设计。它采用流批处理、残差无分类引导等创新技术,大幅提升了扩散模型的生成速度。在RTX 4090显卡上,使用SD-turbo模型可实现每秒106帧的文生图速度,LCM-LoRA与KohakuV2模型组合也能达到每秒38帧。该项目为开发实时AI图像生成应用提供了有力支持。
LooseControl - 通用深度条件生成控制技术
LooseControl深度条件控制ControlNet图像生成AI绘图Github开源项目
LooseControl是一种提升ControlNet能力的深度条件生成控制技术,实现了更通用的深度条件控制。该开源项目提供UI界面和Python API,支持基于粗略深度图的图像生成和风格保持编辑。LooseControl适用于多种场景,为计算机视觉和图像生成领域提供了新的研究方向。
MGM - 多模态视觉语言模型的潜力挖掘与创新
Mini-Gemini多模态视觉语言模型AI绘图大语言模型图像理解Github开源项目
Mini-Gemini项目探索多模态视觉语言模型的新可能。该项目支持2B至34B规模的大语言模型,实现图像理解、推理和生成功能。基于LLaVA构建的Mini-Gemini提供完整资源,包括预训练权重、数据集和评估基准。通过双视觉编码器和patch信息挖掘等技术创新,Mini-Gemini实现了文本与图像的深度融合。
PuLID - 基于对比对齐的高效ID定制技术
PuLIDAI绘图图像生成深度学习计算机视觉Github开源项目
PuLID是一种基于对比对齐的ID定制技术,能够快速生成高质量个性化图像。该项目提供本地Gradio和在线Hugging Face演示,并获得社区广泛支持,包括Colab和Replicate等第三方实现。PuLID旨在推动AI图像生成领域的发展,为研究人员和开发者提供实用工具和资源。
Open-AnimateAnyone - 人人皆可使用的AI动画生成项目
Animate AnyoneAI绘图深度学习人工智能计算机视觉Github开源项目
Open-AnimateAnyone是一个非官方实现的AI动画生成项目,基于magic-animate和AnimateDiff构建。项目提供训练和推理代码,以及Gradio演示界面。在小规模数据集上进行训练,展示了有限数据条件下的动画生成能力。开发者分享了有价值的训练经验,为未来改进提供方向。尽管存在一些限制,该项目仍为AI动画生成技术的开放研究做出了贡献。
comfyui-deploy - 开源AI图像工作流部署平台
ComfyUI DeployAI绘图开源部署平台工作流管理无服务器GPUGithub开源项目
ComfyUI Deploy是一个开源的AI图像生成工作流部署平台,提供无服务器GPU托管和ComfyUI深度集成。平台支持工作流版本管理、多机器部署和API生成,适用于生产和测试环境。它支持RunPods、Modal和自托管机器,提供工作流预览功能,并允许跨机器运行相同工作流。ComfyUI Deploy简化了复杂AI工作流的部署和管理过程,为开发者提供高效灵活的解决方案。
OMG - 优化多角色图像生成框架,支持个性化和样式控制
OMG多人物生成AI绘图Diffusion模型ControlNetGithub开源项目
OMG是一个多概念图像生成框架,支持Civitai.com的角色和样式LoRA模型。结合InstantID可实现单图多ID个性化。该框架提供高质量多角色图像生成,支持布局和样式控制。项目开源并附详细说明,为图像生成领域带来新突破。
fastcomposer - 无微调的高效多主体图像生成技术
FastComposerAI绘图多主体生成注意力定位无需微调Github开源项目
FastComposer是一种创新的多主体图像生成技术,无需微调即可实现高效、个性化的文本到图像转换。该技术通过主体嵌入和注意力定位监督解决身份混淆问题,同时保持图像的身份特征和可编辑性。与传统微调方法相比,FastComposer在速度上实现了300-2500倍的提升,且无需为新主体增加额外存储。这一技术为高质量多主体图像创作提供了新的可能性。
StyleShot - 多样化风格迁移的AI图像生成开源项目
StyleShot图像风格迁移AI绘图深度学习计算机视觉Github开源项目
StyleShot是一个开源的AI图像生成项目,专注于实现广泛的风格迁移能力。通过风格感知编码器和StyleGallery数据集,它能够模仿3D、扁平、抽象等多种风格,无需测试时微调。项目在风格迁移性能上展现出优势,为图像风格化研究提供了新的方向和可能性。
diffusion-models-class - 掌握扩散模型从理论到实践的全面课程
Hugging Face扩散模型AI绘图深度学习PyTorchGithub开源项目
Hugging Face推出的扩散模型免费课程涵盖理论研究和实践应用。课程内容包括使用Diffusers库生成图像和音频、训练和微调扩散模型、探索条件生成和引导技术、创建自定义模型管道等。适合具备Python和深度学习基础的学习者,提供全面的扩散模型学习体验。
muse-maskgit-pytorch - 基于掩码生成变压器的PyTorch文本到图像生成框架
MuseAI绘图图像生成PyTorchMaskGitGithub开源项目
muse-maskgit-pytorch是一个实现Muse: Text-to-Image Generation via Masked Generative Transformers的开源项目。该框架集成了VQGanVAE和MaskGit模型,支持基础图像生成和超分辨率处理。项目提供了完整的训练和生成流程,包括VAE训练、基础MaskGit和超分辨率MaskGit的使用方法,为研究人员提供了探索文本到图像生成技术的工具。
DiffSketcher - 基于文本生成高质量矢量草图的新方法
DiffSketcher向量草图合成潜在扩散模型文本引导AI绘图Github开源项目
DiffSketcher是一个基于潜在扩散模型的文本引导矢量草图合成项目。它可以根据文本描述生成高质量的矢量草图,支持素描、油画和彩色图像等多种风格。该项目提供灵活的参数配置,如调整笔画数量和迭代次数,并支持与风格迁移技术结合。DiffSketcher为艺术创作和图像生成领域提供了新的可能性。
midjourney-api - Node.js客户端实现非官方MidJourney API连接
MidjourneyDiscordAI绘图Node.jsAPIGithub开源项目
midjourney-client是一个Node.js客户端,用于连接非官方MidJourney API。它支持imagine、variation、upscale等基本操作,同时提供face swap、niji bot和custom zoom等扩展功能。项目包含详细配置选项和示例代码,方便开发者将MidJourney的AI图像生成能力集成到应用中。该客户端支持WebSocket通信,实现remix模式和自定义缩放。项目文档提供了完整的安装步骤、环境配置说明和使用示例,便于开发者快速上手。此外,midjourney-client还支持代理设置,增强了在不同网络环境下的适用性。
InstantID-Rome - 先进的身份保持图像生成工具
InstantID-RomeAI绘图图像生成人物特征保持身份识别Github开源项目
InstantID-Rome是一个改进的身份保持图像生成项目。它优化了身体构图、面部饱和度和可编辑性,同时提供更稳定的布局、更高的一致性和更真实的效果。该项目支持大范围图像尺度和图层扩散,为多种创意和实用场景提供了灵活的身份保持生成功能。
HashNeRF-pytorch - 纯PyTorch实现的高速NeRF训练框架
NeRFPyTorchAI绘图神经网络多分辨率哈希编码Github开源项目
HashNeRF-pytorch是一个基于PyTorch的Instant-NGP实现,专注于加速NeRF(神经辐射场)训练。该项目采用多分辨率哈希编码,将训练速度提升至传统NeRF方法的100倍。它支持多种数据集,提供简洁的使用指南和额外优化功能。这个开源项目为AI研究人员提供了一个探索和创新NeRF技术的平台,尤其适合需要在PyTorch环境中快速实现高质量3D渲染的开发者。
ProFusion - 高效定制化文本到图像生成的无正则化方法
ProFusionAI绘图文本生成图像自定义模型Stable DiffusionGithub开源项目
ProFusion是一个创新的文本到图像生成框架,专为定制预训练大规模模型而设计。该框架仅需一张测试图像和单个GPU,即可为独特概念生成多样创意图像。ProFusion采用无正则化方法,有效保留图像细节,并能构建定制数据集用于训练免调整的AI助手。此外,它还支持处理复杂输入,同时生成文本说明和图像,无需额外微调。
Designer - AI 文字转图片平台
AI图像图像生成AI工具AI绘图Image CreatorMicrosoft Rewards设计师图书馆热门
该工具应用先进AI技术,能根据文本输入迅速生成高质量图像。操作简便,完全免费,让图像创作几秒钟内完成,提升视觉效果和创意表现。