#文本生成图像

富文本到图像生成: 增强文本到图像生成的控制能力

3 个月前
Cover of 富文本到图像生成: 增强文本到图像生成的控制能力

CustomNet:实现零样本对象定制的创新文生图模型

3 个月前
Cover of CustomNet:实现零样本对象定制的创新文生图模型

PickScore: 一个开放的文本到图像生成用户偏好数据集及评分模型

3 个月前
Cover of PickScore: 一个开放的文本到图像生成用户偏好数据集及评分模型

Ranni:基于大语言模型的高精度文本到图像生成系统

3 个月前
Cover of Ranni:基于大语言模型的高精度文本到图像生成系统

PixArt-α: 快速训练的图像生成新范式

3 个月前
Cover of PixArt-α: 快速训练的图像生成新范式

MIGC: 多实例生成控制器赋能文本到图像合成新高度

3 个月前
Cover of MIGC: 多实例生成控制器赋能文本到图像合成新高度

DiffusionDB: 大规模文本到图像提示数据集的创新与应用

3 个月前
Cover of DiffusionDB: 大规模文本到图像提示数据集的创新与应用

SkyPaint-AI-Diffusion: 基于 Stable Diffusion 的中英双语 AI 绘画模型

3 个月前
Cover of SkyPaint-AI-Diffusion: 基于 Stable Diffusion 的中英双语 AI 绘画模型

Deep Daze: 用自然语言生成图像的革命性工具

3 个月前
Cover of Deep Daze: 用自然语言生成图像的革命性工具
相关项目
Project Cover

SkyPaint-AI-Diffusion

SkyPaint由奇点智源开发,支持中文和英文文本输入,生成现代艺术风格的高质量图像。基于OpenAI-CLIP优化,支持多种提示词输入。用户可以在线体验SkyPaint,模型兼容stable_diffusion_1.x及相关微调版本。SkyCLIP通过多语种BERT进行训练,显著降低算力需求,提升模型性能。项目持续优化,旨在为开源社区提供便捷的复现和微调解决方案,适用于多语言图文检索和生成任务。

Project Cover

MIGC

MIGC项目的多实例生成控制器提升了文本生成图像的多样性和质量,包含COCO-MIG基准测试、在线Colab演示等资源。MIGC提升了属性控制,通过更换不同生成器权重,实现高质量和多样化图像生成。最新Consistent-MIG算法优化迭代编辑功能,保持未修改区域一致性并增强修改实例的一致性。此项目由浙江大学的ReLER实验室和华为监督。

Project Cover

diffusiondb

DiffusionDB 是一个大规模文本生成图像数据集,包含1400万张由Stable Diffusion生成的图像,以真实用户的提示和超参数为基础。该数据集为研究生成模型与提示词的关系、检测深度伪造和设计人机交互工具提供了丰富资源,分为 DiffusionDB 2M 和 DiffusionDB Large 两个子集,满足不同需求。模块化的数据集结构使得用户可以高效加载所需部分。

Project Cover

DMD2

DMD2是一种改进的分布匹配蒸馏技术,用于快速图像合成。通过消除回归损失、集成GAN损失和支持多步采样,该技术显著提升了图像生成的质量和效率。在ImageNet-64x64和COCO 2014数据集上,DMD2的FID评分超越原始模型,同时将推理成本降低500倍。此外,DMD2还能生成百万像素级图像,在少步方法中展现出卓越的视觉效果。

Project Cover

InstaFlow

InstaFlow是一种基于Rectified Flow技术的单步图像生成器。该技术能生成接近Stable Diffusion质量的图像,同时大幅降低计算资源需求。InstaFlow通过直接将噪声映射到图像,避免了扩散模型的多步采样过程,将推理时间缩短至约0.1秒,比Stable Diffusion提高了约90%的效率。此外,InstaFlow还具有高质量输出和简单高效的训练过程等特点。

Project Cover

PixArt-alpha

PixArt-α是一个基于Transformer的文本到图像扩散模型,其生成图像质量可与Imagen、SDXL等最先进的图像生成器相媲美。该模型的训练速度显著超过现有大规模模型,仅需Stable Diffusion v1.5训练时间的10.8%。通过采用训练策略分解、高效Transformer结构和高信息量数据等创新设计,PixArt-α在大幅降低训练成本的同时,保证了优秀的图像生成质量、艺术性和语义控制能力。

Project Cover

Ranni

Ranni是一个创新的文本到图像生成项目,结合大型语言模型和扩散模型,提高了指令理解和图像生成的精确度。该项目由规划模型和绘画模型组成,可将文本指令准确转化为视觉元素。除了生成高质量图像,Ranni还支持交互式编辑,方便调整生成结果。项目已开源模型权重,包含经LoRA微调的LLaMa-2-7B和全面微调的SDv2.1模型。

Project Cover

HunyuanDiT

HunyuanDiT是一个多分辨率扩散变换器模型,具有细粒度的中英文理解能力。该模型采用优化的变换器结构、文本编码器和位置编码,通过迭代数据流程提升性能。HunyuanDiT支持多轮多模态对话,可根据上下文生成和优化图像。经专业评估,该模型在中文到图像生成方面达到开源模型的先进水平。

Project Cover

deep-daze

Deep Daze是一款基于OpenAI的CLIP和Siren技术的命令行工具,可将文本转化为图像。用户可以通过自然语言描述生成图像,并调整图层数量、图像分辨率和学习率等参数以优化效果。工具还支持结合图像和文本进行生成,及使用初始图像进行生成器网络训练。Deep Daze需要Nvidia或AMD GPU,推荐16GB显存。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号