#文本生成图像

SkyPaint-AI-Diffusion - 支持中文和英文文本输入的现代艺术图像生成工具
SkyPaint文本生成图像图像编码器扩散模型SkyCLIPGithub开源项目
SkyPaint由奇点智源开发,支持中文和英文文本输入,生成现代艺术风格的高质量图像。基于OpenAI-CLIP优化,支持多种提示词输入。用户可以在线体验SkyPaint,模型兼容stable_diffusion_1.x及相关微调版本。SkyCLIP通过多语种BERT进行训练,显著降低算力需求,提升模型性能。项目持续优化,旨在为开源社区提供便捷的复现和微调解决方案,适用于多语言图文检索和生成任务。
MIGC - 利用MIGC实现多实例文本生成图像
MIGC文本生成图像稳定扩散CVPR2024多实例生成Github开源项目
MIGC项目的多实例生成控制器提升了文本生成图像的多样性和质量,包含COCO-MIG基准测试、在线Colab演示等资源。MIGC提升了属性控制,通过更换不同生成器权重,实现高质量和多样化图像生成。最新Consistent-MIG算法优化迭代编辑功能,保持未修改区域一致性并增强修改实例的一致性。此项目由浙江大学的ReLER实验室和华为监督。
diffusiondb - 大规模文本生成图像数据集,促进多领域研究
DiffusionDBStable Diffusion文本生成图像数据集生成模型Github开源项目
DiffusionDB 是一个大规模文本生成图像数据集,包含1400万张由Stable Diffusion生成的图像,以真实用户的提示和超参数为基础。该数据集为研究生成模型与提示词的关系、检测深度伪造和设计人机交互工具提供了丰富资源,分为 DiffusionDB 2M 和 DiffusionDB Large 两个子集,满足不同需求。模块化的数据集结构使得用户可以高效加载所需部分。
DMD2 - 改进分布匹配蒸馏的快速图像合成技术
DMD2AI绘图图像生成模型蒸馏文本生成图像Github开源项目
DMD2是一种改进的分布匹配蒸馏技术,用于快速图像合成。通过消除回归损失、集成GAN损失和支持多步采样,该技术显著提升了图像生成的质量和效率。在ImageNet-64x64和COCO 2014数据集上,DMD2的FID评分超越原始模型,同时将推理成本降低500倍。此外,DMD2还能生成百万像素级图像,在少步方法中展现出卓越的视觉效果。
InstaFlow - 基于Rectified Flow的单步高质量图像生成技术
InstaFlow文本生成图像人工智能深度学习图像生成Github开源项目
InstaFlow是一种基于Rectified Flow技术的单步图像生成器。该技术能生成接近Stable Diffusion质量的图像,同时大幅降低计算资源需求。InstaFlow通过直接将噪声映射到图像,避免了扩散模型的多步采样过程,将推理时间缩短至约0.1秒,比Stable Diffusion提高了约90%的效率。此外,InstaFlow还具有高质量输出和简单高效的训练过程等特点。
PixArt-alpha - 高效训练的Transformer扩散模型实现逼真文本到图像生成
PixArt-α文本生成图像扩散模型Transformer高效训练Github开源项目
PixArt-α是一个基于Transformer的文本到图像扩散模型,其生成图像质量可与Imagen、SDXL等最先进的图像生成器相媲美。该模型的训练速度显著超过现有大规模模型,仅需Stable Diffusion v1.5训练时间的10.8%。通过采用训练策略分解、高效Transformer结构和高信息量数据等创新设计,PixArt-α在大幅降低训练成本的同时,保证了优秀的图像生成质量、艺术性和语义控制能力。
Ranni - 将文本指令精确转化为图像的AI生成技术
Ranni文本生成图像AI绘画语义理解CVPR 2024Github开源项目
Ranni是一个创新的文本到图像生成项目,结合大型语言模型和扩散模型,提高了指令理解和图像生成的精确度。该项目由规划模型和绘画模型组成,可将文本指令准确转化为视觉元素。除了生成高质量图像,Ranni还支持交互式编辑,方便调整生成结果。项目已开源模型权重,包含经LoRA微调的LLaMa-2-7B和全面微调的SDv2.1模型。
HunyuanDiT - 实现多分辨率扩散和细粒度中英文理解
HunyuanDiT文本生成图像多轮对话开源中英双语Github开源项目
HunyuanDiT是一个多分辨率扩散变换器模型,具有细粒度的中英文理解能力。该模型采用优化的变换器结构、文本编码器和位置编码,通过迭代数据流程提升性能。HunyuanDiT支持多轮多模态对话,可根据上下文生成和优化图像。经专业评估,该模型在中文到图像生成方面达到开源模型的先进水平。
PickScore - 优化文本到图像生成的用户偏好数据集和模型
PickScore数据集文本生成图像用户偏好开源项目Github
PickScore是一个开源项目,提供数据集和模型用于优化文本到图像生成的用户偏好预测。项目包含Pick-a-Pic v1和v2数据集,以及基于v1训练的PickScore模型。此外,还提供演示、安装指南、推理示例和训练脚本,方便研究人员和开发者进行实验和改进。PickScore致力于提升AI生成图像的质量和用户体验。
CustomNet - 创新的物体定制与多视角生成扩散模型
CustomNet文本生成图像对象定制视角控制深度学习Github开源项目
CustomNet是一个创新的文本到图像扩散模型框架,专注于物体定制和多视角生成。该模型整合了3D新视角合成能力,实现物体空间位置和视角的灵活调整,同时保持物体身份。CustomNet无需测试时优化,可同时控制视角、位置和文本,在身份保持、多样性和协调性方面表现出色。这一技术为物体定制和图像生成领域开辟了新的可能性。
rich-text-to-image - 富文本格式提升文本到图像生成的精确控制
Rich-Text-to-Image文本生成图像AI绘图Stable DiffusionICCV 2023Github开源项目
Rich-Text-to-Image项目利用富文本格式信息增强文本到图像生成的控制能力。该项目通过字体大小、颜色、样式和脚注等格式实现精确的颜色渲染、局部风格控制和详细区域合成。这种方法支持token显式重新加权,可与Stable Diffusion等主流模型集成,提供更精细的图像生成控制。项目开源了代码实现,并提供在线演示和相关论文,为文本到图像生成领域开辟了新的研究方向。
ELLA - 大语言模型辅助扩散模型实现增强语义对齐
ELLAEMMA文本生成图像语义对齐多模态技术Github开源项目
ELLA项目将大语言模型与扩散模型结合,提高了图像生成的语义对齐能力。通过LLM注释的合成标题训练,ELLA实现了更准确的文本到图像转换。项目提供DPG-Bench评估基准和ComfyUI插件,并开发了支持多模态输入的EMMA模型。这些创新为图像生成领域开辟了新途径,展现了语言模型与扩散模型融合的应用前景。
T2I-CompBench - 组合式文本到图像生成的全面评估基准
T2I-CompBench++文本生成图像评估基准组合能力AI模型Github开源项目
T2I-CompBench++是一个用于评估组合式文本到图像生成的增强基准。它引入了人工评估图像-分数对、更全面的组合测试以及被Stable Diffusion 3等模型采用的新评估指标。该基准涵盖颜色、形状、纹理和空间关系等多个方面,通过多种方法全面衡量模型的组合能力。研究人员可利用此基准进行模型训练和评估,促进组合式图像生成技术的进步。
ProFusion - 高效定制化文本到图像生成的无正则化方法
ProFusionAI绘图文本生成图像自定义模型Stable DiffusionGithub开源项目
ProFusion是一个创新的文本到图像生成框架,专为定制预训练大规模模型而设计。该框架仅需一张测试图像和单个GPU,即可为独特概念生成多样创意图像。ProFusion采用无正则化方法,有效保留图像细节,并能构建定制数据集用于训练免调整的AI助手。此外,它还支持处理复杂输入,同时生成文本说明和图像,无需额外微调。
Anti-DreamBooth - 防护技术阻止AI生成仿真个人图像
Anti-DreamBooth文本生成图像隐私保护扰动优化人脸数据集Github开源项目
Anti-DreamBooth是一项创新技术,通过向用户图像添加微妙噪声来防止AI模型生成特定个人的仿真图像。该项目开发了多种扰动优化算法,并在多个数据集上进行了全面评估。研究表明,即使在模型或提示词不匹配的情况下,Anti-DreamBooth也能有效保护个人隐私,阻止生成逼真的目标人物图像。
dalle-mini - 开源文本生成图像AI模型
DALL·E MiniAI绘图文本生成图像机器学习深度学习Github开源项目
DALL·E Mini是一个开源的文本生成图像AI项目,基于OpenAI的DALL·E模型。该项目能根据文本描述生成相应图像,用户可通过craiyon.com体验。DALL·E Mini提供了技术报告、开发文档和训练代码,便于研究人员进行深入研究和二次开发。项目由多位贡献者合作完成,获得了Google TPU Research Cloud等多方支持。
MUSE AI - 将文字转化为独特视觉艺术的人工智能平台
AI工具AI绘图Muse AI文本生成图像AI艺术生成器Midjourney替代品
MUSE AI是一款基于人工智能的艺术创作平台,可将文字描述转换为多样化的视觉作品。该工具支持油画、动漫、像素艺术等多种风格,用户通过输入文本提示即可生成独特的AI艺术。MUSE AI每日提供10次免费生成机会,同时提供付费会员服务以解锁更多功能。这一平台为创意爱好者和专业人士提供了便捷的AI辅助艺术创作方式。
Journey Art AI - 在线生成AI艺术图像的免费平台
AI工具Journey V6.1AI绘图Discord文本生成图像journeyart.ai
Journey Art AI是一款先进的AI图像生成工具,通过文本提示界面创造多样化的艺术作品。该工具支持多种艺术风格,持续更新模型以提升图像质量。目前在journeyart.ai网站上每天可免费生成20张图像。最新的V6.1版本增强了提示理解能力和图像连贯性,扩展了创作可能性。Journey Art AI适用于各类创意需求,无需专业技能即可轻松生成独特的AI艺术图像。
Uranus.AI - AI文本到图像艺术创作平台
AI工具Uranus.AIAI绘图文本生成图像图像生成器AI艺术
Uranus.AI是一个先进的AI艺术生成器(AI art generator),将简单的文字描述转化为令人惊叹的视觉艺术作品。这个基于文本的图像生成(text-to-image)平台提供多样化的风格选项和增强功能,支持用户定制和优化创作。用户可以使用随机生成功能激发灵感,或通过专家模式精细调整参数。Uranus.AI的高级AI引擎能快速生成高质量图像,为艺术创作者和设计师提供了一个强大而便捷的创意工具。
SDXL Turbo - 革新性实时文本转图像AI技术
AI工具SDXL TurboAI绘图文本生成图像深度学习计算机视觉
SDXL Turbo运用先进的对抗性稳定扩散蒸馏技术,实现单步快速生成高质量图像。此模型适用于实时应用场景,在艺术创作、教育研究等领域展现广泛前景。用户可通过在线平台免费体验SDXL Turbo,亲身感受AI即时图像生成的强大功能。
DeepFloyd IF - 突破性的开源文本到图像AI模型
AI工具DeepFloyd IFAI绘图文本生成图像扩散模型开源模型
DeepFloyd IF是一款开源的文本到图像生成AI模型,采用冻结文本编码器和三级级联像素扩散模块架构。该模型在COCO数据集上实现6.66的零样本FID分数,生成的图像逼真度高且具备语言理解能力。DeepFloyd IF支持梦境生成、风格迁移、超分辨率和图像修复等多项功能,展现了大型UNet架构在级联扩散模型中的潜力,为文本到图像合成技术的发展提供了新方向。
AI Art Generator - AI文本到图像转换平台 创造独特数字艺术
AI工具AI绘图Stable Diffusion人工智能艺术文本生成图像aiartgenerator.cc
AI Art Generator是一个在线人工智能艺术生成平台,利用Stable Diffusion技术将文字转化为多样化的视觉艺术作品。无需专业技能,用户只需输入文本提示,即可快速生成插图、概念艺术、书籍封面等多种图像。这一工具不仅提高创作效率,还能激发创意灵感,为艺术创作提供新的可能性。AI Art Generator为创作者提供了便捷的艺术创作方式,使想象力更容易转化为现实,让艺术创作变得更加高效有趣。
Stable Diffusion 3 - 探索Stable Diffusion 3的高级文本到图像生成能力
AI工具Stable Diffusion 3AI绘图文本生成图像图像质量人工智能
Stable Diffusion 3是Stability AI开发的先进文本到图像模型,在图像质量、多主题处理和文本遵循方面有显著提升。本站提供免费在线体验,用户可通过文本提示生成高质量图像。网站详细介绍了Stable Diffusion 3的核心特性,并提供API接口和下载选项,满足开发者和研究人员的不同需求。探索AI驱动的图像生成新境界,体验Stable Diffusion 3的强大功能。
Story Diffusion Gen - AI连贯角色与故事生成平台
AI工具Story DiffusionAI绘图文本生成图像视频生成漫画创作
Story Diffusion Gen是一款基于AI的内容创作平台,能够将文本转化为连贯的图像和视频序列。通过先进的自注意力机制,该平台确保角色和场景在整个叙事过程中保持一致性。它支持创作者生成故事、漫画和视频,界面友好,适合不同经验水平的用户。平台的动作预测功能还能从图像序列创建动态视频,为数字叙事和内容创作提供了新的可能性。
Photo to Anime - 免费在线照片转动漫和文本生成动漫工具
AI工具AI滤镜卡通化动漫风格图片转换文本生成图像
Photo to Anime是一款免费的在线工具,支持AI照片转动漫和文本生成动漫图像。使用设备端处理技术,保护用户隐私,无需登录即可使用。操作简单直观,适合所有用户,无需专业技能。支持无限制生成图像,为用户提供创新方式重新诠释照片和想象力。
imgUpscaling - AI驱动的在线图像处理工具 提升画质与创作效率
AI工具AI图像处理图像放大文本生成图像图像压缩格式转换
imgUpscaling为设计师、摄影师和内容创作者提供多功能AI图像处理服务。支持图像放大、文本生成图像、压缩和格式转换等功能,适用于肖像、插图、风景、平面设计和食品摄影等领域。先进算法确保高质量输出,操作简便,处理迅速,有效提升工作效率。无论是放大照片、创作AI图像,还是压缩转换格式,imgUpscaling都能满足多样化的图像处理需求。
EasyPrompt - 快速文本到AI图像转换的在线工具
AI工具AI绘图文本生成图像生成式AIEasyPrompt人工智能
EasyPrompt是一个基于AI技术的图像生成工具,可将文字描述转换为视觉艺术作品。该平台支持多语言输入,用户只需提供简单的文字提示,即可快速获得AI生成的图像。EasyPrompt采用最新的生成式AI技术,为各类用户提供了一个便捷的创作环境。
SDXL Turbo Online - 快速高质量的AI文本转图像模型
AI工具SDXL TurboAI绘图文本生成图像图像生成Stability AI
SDXL Turbo是一种基于对抗扩散蒸馏技术的先进文本到图像生成模型。作为SDXL 1.0的快速版本,它能在单次网络评估中生成高质量、逼真的图像。通过将生成步骤从50减少到1,SDXL Turbo实现了实时高质量图像合成。该模型广泛应用于内容创作、电子商务和设计等领域。尽管目前存在512x512像素分辨率限制等局限性,SDXL Turbo仍是文本到图像合成技术的重要进展。
DiffusionGPT - LLM驱动的多功能文本转图像生成系统
DiffusionGPT文本生成图像大语言模型人工智能图像生成Github开源项目
DiffusionGPT是一个利用大型语言模型(LLM)的文本到图像生成系统。该系统能适应多种类型的提示,并整合专业领域模型。DiffusionGPT通过LLM技术,提供了一个统一的生成平台,可处理多样化的输入并生成图像。项目提供开源代码、在线演示和使用指南,方便研究人员和开发者进行实验和应用。
Kandinsky-2 - 多功能AI驱动的图像生成与编辑工具
KandinskyAI绘图文本生成图像图像编辑深度学习Github开源项目
Kandinsky-2是一个开源的图像生成和编辑工具,采用CLIP图像编码器和ControlNet技术。该模型支持文本到图像生成、图像到图像转换、图像融合和图像修复等功能。Kandinsky-2能准确理解多语言文本输入,并在图像生成过程中提供精细控制。这个AI模型为创作者提供了多样化的图像处理选择,在保持高质量输出的同时,也具备良好的可定制性。
stable-diffusion-colab - Stable Diffusion Hyper-SDXL模型在Colab上的简易部署与使用
Stable DiffusionAI绘图文本生成图像深度学习ColabGithub开源项目
该项目为Stable Diffusion Hyper-SDXL模型提供了Colab部署方案。用户可通过简单的文本提示生成高分辨率创意图像,如火星上骑马的宇航员或埃菲尔铁塔前用餐的皮卡丘。项目采用先进的潜在扩散模型技术,并集成了LCM-LoRA加速模块,有效提升了图像生成效率。
stallion-dreams-pony-realistic-v1-sdxl - 文字到图像的真实感小马生成模型
Stallion Dreams文本生成图像图像处理开源项目模型GithubHuggingface照片现实主义Stable Diffusion
项目利用Stable Diffusion技术,专为生成真实感小马图像而设计,提供文字到图像的转换功能。模型使用diffusers库,在生成写实图像方面表现优异,适合对逼真效果有需求的创作者和开发者。
kandinsky-3 - 开放源代码的俄罗斯文化文本到图像扩散模型
扩散模型开放源代码模型Github开源项目文本生成图像俄罗斯文化Kandinsky 3.0Huggingface
Kandinsky 3.0是一个开放源代码的文本到图像扩散模型,注重生成与俄罗斯文化相关的图像。相较于Kandinsky2-x系列,该模型使用了更丰富的数据集,并通过增大文本编码器和扩散U-Net模型的规模,提升了文本理解和图像质量。Kandinsky 3.0包括基本型和修补型两种模型,经过不同步数的训练,提供高质量的图像生成。
AI-infinity-V1-fp16 - 采用稳定扩散的真实感图像生成模型
AI InfinityHugging Face稳定扩散模型GithubDiffusers开源项目文本生成图像Huggingface
AI-infinity-V1-fp16项目展示了稳定扩散技术在生成真实感图像中的应用。通过Huggingface API及原创作者的示例,该模型清晰呈现文本到图像的转换能力,特别是在生成自然手部细节方面有卓越表现。了解该项目的主要特性和优势,有助于提升图像处理的创造性。
vintage-ads-flux - 复古风格广告图像生成工具
文本生成图像AI绘图Github开源项目vintage ads非商业许可Huggingface模型训练模型
vintage-ads-flux是基于FLUX.1-dev模型及LoRA扩散技术的图像生成工具,可以生成复古风格的广告图像。该模型通过公开领域复古广告训练,支持使用特定触发词进行图像生成,适用于非商业应用。您可以从官方网站下载模型权重,实现复古广告的创意制作。
deep-daze - 基于CLIP和Siren的文本到图像生成命令行工具
Deep DazeCLIPSiren文本生成图像AI绘图Github开源项目
Deep Daze是一款基于OpenAI的CLIP和Siren技术的命令行工具,可将文本转化为图像。用户可以通过自然语言描述生成图像,并调整图层数量、图像分辨率和学习率等参数以优化效果。工具还支持结合图像和文本进行生成,及使用初始图像进行生成器网络训练。Deep Daze需要Nvidia或AMD GPU,推荐16GB显存。