#文本生成图像

Deep-Daze 学习资料汇总 - 基于CLIP和SIREN的文本到图像生成工具

2 个月前

Deep Daze CLIP Siren 文本生成图像 AI绘图 Github 开源项目

2 个月前

Stable Diffusion Colab: 在Google Colab上运行先进的AI图像生成模型

3 个月前

Stable Diffusion AI绘图文本生成图像深度学习 Colab Github 开源项目

3 个月前

Kandinsky-2: 一个突破性的多语言文本到图像生成模型

3 个月前

Kandinsky AI绘图文本生成图像图像编辑深度学习 Github 开源项目

3 个月前

ProFusion: 增强定制化文本到图像生成的细节保留能力

3 个月前

ProFusion AI绘图文本生成图像自定义模型 Stable Diffusion Github 开源项目

3 个月前

Anti-DreamBooth: 保护用户免受个性化文本到图像合成的威胁

3 个月前

Anti-DreamBooth 文本生成图像隐私保护扰动优化人脸数据集 Github 开源项目

3 个月前

ELLA: 用LLM增强扩散模型的语义对齐能力

3 个月前

ELLA EMMA 文本生成图像语义对齐多模态技术 Github 开源项目

3 个月前

T2I-CompBench: 开创文本到图像生成的新纪元

3 个月前

T2I-CompBench++文本生成图像评估基准组合能力 AI模型 Github 开源项目

3 个月前

HunyuanDiT：腾讯推出的强大多分辨率扩散变换器模型

3 个月前

HunyuanDiT 文本生成图像多轮对话开源中英双语 Github 开源项目

3 个月前

InstaFlow: 革命性的一步式文本到图像生成模型

3 个月前

InstaFlow 文本生成图像人工智能深度学习图像生成 Github 开源项目

3 个月前

DMD2: 改进的分布匹配蒸馏技术实现快速图像合成

3 个月前

DMD2 AI绘图图像生成模型蒸馏文本生成图像 Github 开源项目

3 个月前

相关项目

SkyPaint-AI-Diffusion

SkyPaint由奇点智源开发，支持中文和英文文本输入，生成现代艺术风格的高质量图像。基于OpenAI-CLIP优化，支持多种提示词输入。用户可以在线体验SkyPaint，模型兼容stable_diffusion_1.x及相关微调版本。SkyCLIP通过多语种BERT进行训练，显著降低算力需求，提升模型性能。项目持续优化，旨在为开源社区提供便捷的复现和微调解决方案，适用于多语言图文检索和生成任务。

MIGC

MIGC项目的多实例生成控制器提升了文本生成图像的多样性和质量，包含COCO-MIG基准测试、在线Colab演示等资源。MIGC提升了属性控制，通过更换不同生成器权重，实现高质量和多样化图像生成。最新Consistent-MIG算法优化迭代编辑功能，保持未修改区域一致性并增强修改实例的一致性。此项目由浙江大学的ReLER实验室和华为监督。

diffusiondb

DiffusionDB 是一个大规模文本生成图像数据集，包含1400万张由Stable Diffusion生成的图像，以真实用户的提示和超参数为基础。该数据集为研究生成模型与提示词的关系、检测深度伪造和设计人机交互工具提供了丰富资源，分为 DiffusionDB 2M 和 DiffusionDB Large 两个子集，满足不同需求。模块化的数据集结构使得用户可以高效加载所需部分。

DMD2

DMD2是一种改进的分布匹配蒸馏技术，用于快速图像合成。通过消除回归损失、集成GAN损失和支持多步采样，该技术显著提升了图像生成的质量和效率。在ImageNet-64x64和COCO 2014数据集上，DMD2的FID评分超越原始模型，同时将推理成本降低500倍。此外，DMD2还能生成百万像素级图像，在少步方法中展现出卓越的视觉效果。

InstaFlow

InstaFlow是一种基于Rectified Flow技术的单步图像生成器。该技术能生成接近Stable Diffusion质量的图像，同时大幅降低计算资源需求。InstaFlow通过直接将噪声映射到图像，避免了扩散模型的多步采样过程，将推理时间缩短至约0.1秒，比Stable Diffusion提高了约90%的效率。此外，InstaFlow还具有高质量输出和简单高效的训练过程等特点。

PixArt-alpha

PixArt-α是一个基于Transformer的文本到图像扩散模型，其生成图像质量可与Imagen、SDXL等最先进的图像生成器相媲美。该模型的训练速度显著超过现有大规模模型，仅需Stable Diffusion v1.5训练时间的10.8%。通过采用训练策略分解、高效Transformer结构和高信息量数据等创新设计，PixArt-α在大幅降低训练成本的同时，保证了优秀的图像生成质量、艺术性和语义控制能力。

Ranni

Ranni是一个创新的文本到图像生成项目，结合大型语言模型和扩散模型，提高了指令理解和图像生成的精确度。该项目由规划模型和绘画模型组成，可将文本指令准确转化为视觉元素。除了生成高质量图像，Ranni还支持交互式编辑，方便调整生成结果。项目已开源模型权重，包含经LoRA微调的LLaMa-2-7B和全面微调的SDv2.1模型。

HunyuanDiT

HunyuanDiT是一个多分辨率扩散变换器模型，具有细粒度的中英文理解能力。该模型采用优化的变换器结构、文本编码器和位置编码，通过迭代数据流程提升性能。HunyuanDiT支持多轮多模态对话，可根据上下文生成和优化图像。经专业评估，该模型在中文到图像生成方面达到开源模型的先进水平。

deep-daze

Deep Daze是一款基于OpenAI的CLIP和Siren技术的命令行工具，可将文本转化为图像。用户可以通过自然语言描述生成图像，并调整图层数量、图像分辨率和学习率等参数以优化效果。工具还支持结合图像和文本进行生成，及使用初始图像进行生成器网络训练。Deep Daze需要Nvidia或AMD GPU，推荐16GB显存。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com