#文本到图像生成

RPG-DiffusionMaster: 掌控文本到图像扩散的新范式

3 个月前

RPG 文本到图像生成多模态大语言模型扩散模型区域扩散 Github 开源项目

3 个月前

Awesome-Controllable-T2I-Diffusion-Models：可控文本到图像扩散模型的前沿进展

3 个月前

Diffusion Models 文本到图像生成个性化生成主体驱动生成可控生成 Github 开源项目

3 个月前

Matryoshka Diffusion Models: 高效训练高质量文本到图像模型的新方法

3 个月前

Matryoshka Diffusion Models 文本到图像生成高分辨率图像合成神经网络模型深度学习 Github 开源项目

3 个月前

Visual Style Prompting:无需训练实现文本到风格化图像的生成

3 个月前

Visual Style Prompting 文本到图像生成扩散模型自注意力机制风格控制 Github 开源项目

3 个月前

DEADiff: 一种高效的具有解耦表示的风格化扩散模型

3 个月前

DEADiff 图像风格化文本到图像生成扩散模型计算机视觉 Github 开源项目

3 个月前

GLIGEN: 开放式基于定位的文本到图像生成技术

3 个月前

GLIGEN 文本到图像生成人工智能计算机视觉深度学习 Github 开源项目

3 个月前

IP-Adapter：为预训练文本到图像扩散模型赋予图像提示能力的轻量级适配器

3 个月前

IP-Adapter 文本到图像生成扩散模型图像提示多模态生成 Github 开源项目

3 个月前

HCP-Diffusion：一个通用的Stable Diffusion工具箱

3 个月前

HCP-Diffusion Stable Diffusion 文本到图像生成 LoRA DreamArtist++Github 开源项目

3 个月前

ImageReward: 利用人类偏好改进文本到图像生成

3 个月前

ImageReward 文本到图像生成人类偏好学习 ReFL Stable Diffusion Github 开源项目

3 个月前

InstructCV: 将文本到图像扩散模型转化为多任务视觉通用模型

3 个月前

InstructCV 计算机视觉文本到图像生成生成扩散模型深度学习 Github 开源项目

3 个月前

相关项目

InstructCV

InstructCV 项目通过指令调优的文本到图像扩散模型，简化了计算机视觉任务的执行方式。该项目将多个计算机视觉任务转化为文本描述的图像生成问题，并使用涵盖分割、物体检测、深度估计和分类等任务的数据集进行训练。利用大型语言模型生成任务提示，该模型从生成模型转变为指令引导的多任务视觉学习者。项目实现了多种环境配置，包括在Huggingface Spaces的Gradio演示和Google Colab的运行示例，并支持PyTorch 1.5+。

HCP-Diffusion

HCP-Diffusion是基于Diffusers库开发的Stable Diffusion模型工具集。它整合了多种文本到图像生成的训练方法，包括Prompt-tuning和Textual Inversion等。该工具集引入了DreamArtist++技术，支持一次性文本到图像生成。HCP-Diffusion提供层级LoRA、模型集成和自定义优化器等功能，为AI研究和开发提供全面的模型训练与推理支持。

IP-Adapter

IP-Adapter是一款轻量高效的图像提示适配器,仅需22M参数即可为预训练文本到图像扩散模型提供图像提示功能。它不仅性能卓越,还可泛化到其他自定义模型,与现有控制工具兼容实现可控生成。IP-Adapter支持图像和文本提示配合使用,实现多模态图像生成,为AI图像生成领域带来新的可能性。

GLIGEN

GLIGEN是一个创新的开放式条件引导文本到图像生成模型。它扩展了冻结文本到图像模型的功能,支持框、关键点和图像等多种引导条件。在COCO和LVIS数据集的零样本测试中,GLIGEN大幅超越了现有的有监督布局到图像生成基线。这项技术在开放世界场景下的应用前景广阔,同时也需关注其局限性和伦理影响。

Visual-Style-Prompting

Visual-Style-Prompting项目提出创新的视觉风格提示方法，通过交换自注意力层键值实现多样化图像生成并保持特定风格。无需微调即可使用，生成图像忠实反映参考风格。经广泛评估，该方法在多种风格和文本提示下表现优异，准确匹配文本描述并最佳呈现参考风格。

DEADiff

DEADiff是一种风格化扩散模型，通过参考图像风格和文本提示生成新颖图像。该模型利用解耦表示技术，实现高效风格迁移和文本引导图像生成。DEADiff可将多种风格应用于不同场景，同时保持内容准确性。这项研究由中国科学技术大学和字节跳动的团队完成，并在CVPR 2024上发表。

ml-mdm

ml_mdm是一个Python开源项目,实现了Matryoshka扩散模型技术用于文本到图像生成。该框架支持训练单个像素空间模型生成高达1024x1024分辨率的图像,开源了U-Net和嵌套U-Net的实现。项目提供预训练模型、Web演示和CC12M数据集上的训练教程,为高分辨率图像和视频合成提供完整解决方案。

RPG-DiffusionMaster

RPG-DiffusionMaster是一款创新的文本到图像生成框架，结合多模态大语言模型的提示重述和区域规划能力，以及互补的区域扩散技术。该项目支持多种扩散模型架构，兼容GPT-4等专有模型和开源本地模型，实现先进的图像生成和编辑效果。框架具有高度灵活性和广泛适应性，能生成超高分辨率图像，是一个功能强大的AI创作工具。

Awesome-Controllable-T2I-Diffusion-Models

该项目汇集了文本到图像扩散模型中可控生成的前沿研究。内容涵盖个性化生成、空间控制、高级文本条件生成等多个方向,并总结了多条件生成和通用可控生成方法。项目为研究人员和开发者提供了全面了解可控T2I扩散模型最新进展的资源,有助于促进该领域的发展。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com