#TMLR

LLM-groundedDiffusion - 优化文本到图像合成的提示理解能力

LLM-grounded DiffusionTMLRHuggingFaceStable DiffusionGPT-4Github开源项目

本项目通过将大型语言模型（LLM）与文本到图像扩散模型结合，提高了提示理解能力。LLM负责解析文本请求，生成中间表示如图像布局，最终通过稳定扩散模型生成高质量图像。项目支持多种生成方法和开源模型，用户可自行设置实现自托管，从而节约API调用成本。项目更新频繁，包括支持高分辨率生成和集成SDXL精炼器等功能。

相关文章

Article Cover

LLM-grounded Diffusion: 革新文本到图像生成的新方法

Article Cover

LLM-groundedDiffusion学习资料汇总 - 用大语言模型增强文本到图像扩散模型的提示理解

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号