#文本生成图像

富文本到图像生成: 增强文本到图像生成的控制能力

3 个月前

Rich-Text-to-Image 文本生成图像 AI绘图 Stable Diffusion ICCV 2023 Github 开源项目

3 个月前

CustomNet:实现零样本对象定制的创新文生图模型

3 个月前

CustomNet 文本生成图像对象定制视角控制深度学习 Github 开源项目

3 个月前

PickScore: 一个开放的文本到图像生成用户偏好数据集及评分模型

3 个月前

PickScore 数据集文本生成图像用户偏好开源项目 Github

3 个月前

Ranni:基于大语言模型的高精度文本到图像生成系统

3 个月前

Ranni 文本生成图像 AI绘画语义理解 CVPR 2024 Github 开源项目

3 个月前

PixArt-α: 快速训练的图像生成新范式

3 个月前

PixArt-α 文本生成图像扩散模型 Transformer 高效训练 Github 开源项目

3 个月前

MIGC: 多实例生成控制器赋能文本到图像合成新高度

3 个月前

MIGC 文本生成图像稳定扩散 CVPR2024 多实例生成 Github 开源项目

3 个月前

DiffusionDB: 大规模文本到图像提示数据集的创新与应用

3 个月前

DiffusionDB Stable Diffusion 文本生成图像数据集生成模型 Github 开源项目

3 个月前

SkyPaint-AI-Diffusion: 基于 Stable Diffusion 的中英双语 AI 绘画模型

3 个月前

SkyPaint 文本生成图像图像编码器扩散模型 SkyCLIP Github 开源项目

3 个月前

Deep Daze: 用自然语言生成图像的革命性工具

3 个月前

Deep Daze CLIP Siren 文本生成图像 AI绘图 Github 开源项目

3 个月前

相关项目

SkyPaint-AI-Diffusion

SkyPaint由奇点智源开发，支持中文和英文文本输入，生成现代艺术风格的高质量图像。基于OpenAI-CLIP优化，支持多种提示词输入。用户可以在线体验SkyPaint，模型兼容stable_diffusion_1.x及相关微调版本。SkyCLIP通过多语种BERT进行训练，显著降低算力需求，提升模型性能。项目持续优化，旨在为开源社区提供便捷的复现和微调解决方案，适用于多语言图文检索和生成任务。

MIGC

MIGC项目的多实例生成控制器提升了文本生成图像的多样性和质量，包含COCO-MIG基准测试、在线Colab演示等资源。MIGC提升了属性控制，通过更换不同生成器权重，实现高质量和多样化图像生成。最新Consistent-MIG算法优化迭代编辑功能，保持未修改区域一致性并增强修改实例的一致性。此项目由浙江大学的ReLER实验室和华为监督。

diffusiondb

DiffusionDB 是一个大规模文本生成图像数据集，包含1400万张由Stable Diffusion生成的图像，以真实用户的提示和超参数为基础。该数据集为研究生成模型与提示词的关系、检测深度伪造和设计人机交互工具提供了丰富资源，分为 DiffusionDB 2M 和 DiffusionDB Large 两个子集，满足不同需求。模块化的数据集结构使得用户可以高效加载所需部分。

DMD2

DMD2是一种改进的分布匹配蒸馏技术，用于快速图像合成。通过消除回归损失、集成GAN损失和支持多步采样，该技术显著提升了图像生成的质量和效率。在ImageNet-64x64和COCO 2014数据集上，DMD2的FID评分超越原始模型，同时将推理成本降低500倍。此外，DMD2还能生成百万像素级图像，在少步方法中展现出卓越的视觉效果。

InstaFlow

InstaFlow是一种基于Rectified Flow技术的单步图像生成器。该技术能生成接近Stable Diffusion质量的图像，同时大幅降低计算资源需求。InstaFlow通过直接将噪声映射到图像，避免了扩散模型的多步采样过程，将推理时间缩短至约0.1秒，比Stable Diffusion提高了约90%的效率。此外，InstaFlow还具有高质量输出和简单高效的训练过程等特点。

PixArt-alpha

PixArt-α是一个基于Transformer的文本到图像扩散模型，其生成图像质量可与Imagen、SDXL等最先进的图像生成器相媲美。该模型的训练速度显著超过现有大规模模型，仅需Stable Diffusion v1.5训练时间的10.8%。通过采用训练策略分解、高效Transformer结构和高信息量数据等创新设计，PixArt-α在大幅降低训练成本的同时，保证了优秀的图像生成质量、艺术性和语义控制能力。

Ranni

Ranni是一个创新的文本到图像生成项目，结合大型语言模型和扩散模型，提高了指令理解和图像生成的精确度。该项目由规划模型和绘画模型组成，可将文本指令准确转化为视觉元素。除了生成高质量图像，Ranni还支持交互式编辑，方便调整生成结果。项目已开源模型权重，包含经LoRA微调的LLaMa-2-7B和全面微调的SDv2.1模型。

HunyuanDiT

HunyuanDiT是一个多分辨率扩散变换器模型，具有细粒度的中英文理解能力。该模型采用优化的变换器结构、文本编码器和位置编码，通过迭代数据流程提升性能。HunyuanDiT支持多轮多模态对话，可根据上下文生成和优化图像。经专业评估，该模型在中文到图像生成方面达到开源模型的先进水平。

deep-daze

Deep Daze是一款基于OpenAI的CLIP和Siren技术的命令行工具，可将文本转化为图像。用户可以通过自然语言描述生成图像，并调整图层数量、图像分辨率和学习率等参数以优化效果。工具还支持结合图像和文本进行生成，及使用初始图像进行生成器网络训练。Deep Daze需要Nvidia或AMD GPU，推荐16GB显存。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com