#文本到图像生成

RPG-DiffusionMaster: 掌控文本到图像扩散的新范式

3 个月前
Cover of RPG-DiffusionMaster: 掌控文本到图像扩散的新范式

Awesome-Controllable-T2I-Diffusion-Models:可控文本到图像扩散模型的前沿进展

3 个月前
Cover of Awesome-Controllable-T2I-Diffusion-Models:可控文本到图像扩散模型的前沿进展

Matryoshka Diffusion Models: 高效训练高质量文本到图像模型的新方法

3 个月前
Cover of Matryoshka Diffusion Models: 高效训练高质量文本到图像模型的新方法

Visual Style Prompting:无需训练实现文本到风格化图像的生成

3 个月前
Cover of Visual Style Prompting:无需训练实现文本到风格化图像的生成

DEADiff: 一种高效的具有解耦表示的风格化扩散模型

3 个月前
Cover of DEADiff: 一种高效的具有解耦表示的风格化扩散模型

GLIGEN: 开放式基于定位的文本到图像生成技术

3 个月前
Cover of GLIGEN: 开放式基于定位的文本到图像生成技术

IP-Adapter:为预训练文本到图像扩散模型赋予图像提示能力的轻量级适配器

3 个月前
Cover of IP-Adapter:为预训练文本到图像扩散模型赋予图像提示能力的轻量级适配器

HCP-Diffusion:一个通用的Stable Diffusion工具箱

3 个月前
Cover of HCP-Diffusion:一个通用的Stable Diffusion工具箱

ImageReward: 利用人类偏好改进文本到图像生成

3 个月前
Cover of ImageReward: 利用人类偏好改进文本到图像生成

InstructCV: 将文本到图像扩散模型转化为多任务视觉通用模型

3 个月前
Cover of InstructCV: 将文本到图像扩散模型转化为多任务视觉通用模型
相关项目
Project Cover

InstructCV

InstructCV 项目通过指令调优的文本到图像扩散模型,简化了计算机视觉任务的执行方式。该项目将多个计算机视觉任务转化为文本描述的图像生成问题,并使用涵盖分割、物体检测、深度估计和分类等任务的数据集进行训练。利用大型语言模型生成任务提示,该模型从生成模型转变为指令引导的多任务视觉学习者。项目实现了多种环境配置,包括在Huggingface Spaces的Gradio演示和Google Colab的运行示例,并支持PyTorch 1.5+。

Project Cover

HCP-Diffusion

HCP-Diffusion是基于Diffusers库开发的Stable Diffusion模型工具集。它整合了多种文本到图像生成的训练方法,包括Prompt-tuning和Textual Inversion等。该工具集引入了DreamArtist++技术,支持一次性文本到图像生成。HCP-Diffusion提供层级LoRA、模型集成和自定义优化器等功能,为AI研究和开发提供全面的模型训练与推理支持。

Project Cover

IP-Adapter

IP-Adapter是一款轻量高效的图像提示适配器,仅需22M参数即可为预训练文本到图像扩散模型提供图像提示功能。它不仅性能卓越,还可泛化到其他自定义模型,与现有控制工具兼容实现可控生成。IP-Adapter支持图像和文本提示配合使用,实现多模态图像生成,为AI图像生成领域带来新的可能性。

Project Cover

GLIGEN

GLIGEN是一个创新的开放式条件引导文本到图像生成模型。它扩展了冻结文本到图像模型的功能,支持框、关键点和图像等多种引导条件。在COCO和LVIS数据集的零样本测试中,GLIGEN大幅超越了现有的有监督布局到图像生成基线。这项技术在开放世界场景下的应用前景广阔,同时也需关注其局限性和伦理影响。

Project Cover

Visual-Style-Prompting

Visual-Style-Prompting项目提出创新的视觉风格提示方法,通过交换自注意力层键值实现多样化图像生成并保持特定风格。无需微调即可使用,生成图像忠实反映参考风格。经广泛评估,该方法在多种风格和文本提示下表现优异,准确匹配文本描述并最佳呈现参考风格。

Project Cover

DEADiff

DEADiff是一种风格化扩散模型,通过参考图像风格和文本提示生成新颖图像。该模型利用解耦表示技术,实现高效风格迁移和文本引导图像生成。DEADiff可将多种风格应用于不同场景,同时保持内容准确性。这项研究由中国科学技术大学和字节跳动的团队完成,并在CVPR 2024上发表。

Project Cover

ml-mdm

ml_mdm是一个Python开源项目,实现了Matryoshka扩散模型技术用于文本到图像生成。该框架支持训练单个像素空间模型生成高达1024x1024分辨率的图像,开源了U-Net和嵌套U-Net的实现。项目提供预训练模型、Web演示和CC12M数据集上的训练教程,为高分辨率图像和视频合成提供完整解决方案。

Project Cover

RPG-DiffusionMaster

RPG-DiffusionMaster是一款创新的文本到图像生成框架,结合多模态大语言模型的提示重述和区域规划能力,以及互补的区域扩散技术。该项目支持多种扩散模型架构,兼容GPT-4等专有模型和开源本地模型,实现先进的图像生成和编辑效果。框架具有高度灵活性和广泛适应性,能生成超高分辨率图像,是一个功能强大的AI创作工具。

Project Cover

Awesome-Controllable-T2I-Diffusion-Models

该项目汇集了文本到图像扩散模型中可控生成的前沿研究。内容涵盖个性化生成、空间控制、高级文本条件生成等多个方向,并总结了多条件生成和通用可控生成方法。项目为研究人员和开发者提供了全面了解可控T2I扩散模型最新进展的资源,有助于促进该领域的发展。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号