HunyuanDiT

实现多分辨率扩散和细粒度中英文理解

HunyuanDiT是一个多分辨率扩散变换器模型，具有细粒度的中英文理解能力。该模型采用优化的变换器结构、文本编码器和位置编码，通过迭代数据流程提升性能。HunyuanDiT支持多轮多模态对话，可根据上下文生成和优化图像。经专业评估，该模型在中文到图像生成方面达到开源模型的先进水平。

访问官网

HunyuanDiT-v1.2-Diffusers - 基于多分辨率扩散技术的中文图像生成模型

GithubHuggingfaceHunyuanDiT中文理解人工智能图像生成多分辨率开源项目模型

HunyuanDiT-v1.2-Diffusers是一个开源的文本到图像生成模型，基于多分辨率Diffusion Transformer架构实现中英文文本理解。模型在文本-图像一致性、AI伪影控制、主体清晰度和美学评分等维度进行了测试评估，支持长文本输入和中国文化元素理解，可用于多样化的图像生成场景。

LLM-groundedDiffusion - 优化文本到图像合成的提示理解能力

GPT-4GithubHuggingFaceLLM-grounded DiffusionStable DiffusionTMLR开源项目

本项目通过将大型语言模型（LLM）与文本到图像扩散模型结合，提高了提示理解能力。LLM负责解析文本请求，生成中间表示如图像布局，最终通过稳定扩散模型生成高质量图像。项目支持多种生成方法和开源模型，用户可自行设置实现自托管，从而节约API调用成本。项目更新频繁，包括支持高分辨率生成和集成SDXL精炼器等功能。

dit-base - 面向文档智能处理的自监督预训练图像Transformer模型

DiTGithubHuggingface图像编码开源项目文档分析文档图像转换器模型自监督预训练

DiT-base是一款基于Transformer架构的文档图像处理模型，通过在4200万份文档图像上进行自监督预训练而成。该模型运用掩码补全任务来学习图像的内部表示，可应用于文档分类、表格检测和版面分析等多种任务。DiT-base能够将文档图像编码为向量，为文档智能处理领域的各类应用奠定了基础。

Lumina-T2X - Lumina-T2X项目：多模态文本转换的流式扩散模型

GithubLumina-T2X多模态生成大型扩散变换器开源项目文本转换高分辨率图像生成

Lumina-T2X利用基于流的扩散变换器，实现文本向多种模态、分辨率和持续时间的转换，包括图像、音频和视频。其功能还包括高分辨率生成、多轮对话、深度图和分割图估计等。项目提供多语言提示和表情符号支持，适用于多种智能生成需求。访问项目页面了解更多详情和使用案例。

DiffusionGPT - LLM驱动的多功能文本转图像生成系统

DiffusionGPTGithub人工智能图像生成大语言模型开源项目文本生成图像

DiffusionGPT是一个利用大型语言模型(LLM)的文本到图像生成系统。该系统能适应多种类型的提示，并整合专业领域模型。DiffusionGPT通过LLM技术，提供了一个统一的生成平台，可处理多样化的输入并生成图像。项目提供开源代码、在线演示和使用指南，方便研究人员和开发者进行实验和应用。

fast-DiT - 改进PyTorch实现的可扩展扩散模型转换器

DiTGithubPyTorchTransformer图像生成开源项目扩散模型

fast-DiT 项目提供了扩散模型转换器（DiT）的改进 PyTorch 实现。该项目包含预训练的类条件 DiT 模型、Hugging Face Space 和 Colab 笔记本，以及优化的训练脚本。通过采用梯度检查点、混合精度训练和 VAE 特征预提取等技术，显著提升了训练速度和内存效率。这一实现为研究人员和开发者提供了探索和应用扩散模型的有力工具。

MultiDiffusion - 基于预训练模型的多功能可控的图像生成框架

GithubMultiDiffusion可控生成图像生成开源项目扩散模型文本到图像

MultiDiffusion 是一个统一框架，通过预训练的文字转图像扩散模型，实现多功能且可控的图像生成，无需进一步训练或微调。该框架支持用户使用各种控制信号，如纵横比和空间引导信号，生成高质量、多样化的图像。MultiDiffusion 优化了多重扩散生成过程，使用一组共享参数或约束，支持局部和全局编辑，适用于如烟雾、火焰和雪等半透明效果。

custom-diffusion - 文本到图像扩散模型微调方法

Custom DiffusionGithubStable Diffusion图像生成多概念定制开源项目文本到图像扩散模型

该项目提供了一种高效的文本到图像扩散模型微调方法。只需调整部分模型参数，即可在短时间内完成训练，并减少存储需求。项目还支持多概念组合，附带新数据集和完整的训练步骤。适用于多种类别和应用场景。

DiG - 基于门控线性注意力的高效可扩展扩散模型

DiGDiffusion ModelsGated Linear AttentionGithub图像生成开源项目深度学习

DiG项目提出了一种基于门控线性注意力的扩散模型,用于解决现有模型在可扩展性和计算效率方面的挑战。该模型在高分辨率下展现出显著的训练速度提升和内存节省,性能优于DiT。DiG在不同计算复杂度下表现出色,随着模型深度/宽度增加或输入令牌增强,FID值持续下降。与其他次二次时间复杂度的扩散模型相比,DiG在多种分辨率下都展现出卓越的效率。

AingDiffusion9.2 - 通过文本生成高清晰度图像

AI绘图GithubHugging FaceHuggingfacestable-diffusion图像生成开源项目模型高质量图像

该项目利用稳定扩散原理和先进的扩散器技术，以生成超逼真的高细节图像。产生图像具备锐利的焦点和鲜艳的色彩，从而流畅映射文本描述。探索AI与视觉创意的交汇，体验创新与实践在生成3D电影级图像中的应用。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com