PixArt-Sigma-XL-2-1024-MS

基于Transformer的高分辨率图像生成模型

Github Huggingface 图像生成深度学习 AI绘图开源项目 PixArt-Σ 模型文本转图像

PixArt-Sigma-XL-2-1024-MS是一款基于纯Transformer架构的潜在扩散模型，能够直接从文本生成高达4K分辨率的图像。该模型采用T5文本编码器和VAE潜在特征编码器，适用于艺术创作、设计和教育研究。尽管在生成照片级真实感和复杂构图方面仍有提升空间，但它为文本到图像生成领域带来了新的可能性。

访问官网

Github

Huggingface

介绍相关项目

Realistic_Vision_V1.4 - 写实人物AI渲染模型支持8K超高清输出

GithubHuggingfaceNovaXLStable Diffusion人工智能绘画图像生成开源项目模型模型训练

Realistic Vision 是一款基于Stable Diffusion的开源人物写实模型，可生成具有自然皮肤纹理和光影效果的8K人物图像。模型集成Euler A和DPM++采样器，并提供优化的提示词模板，有效降低图像畸变。主要应用于人物写真、肖像和角色设计等创作领域。

SDXL Turbo - 革新性实时文本转图像AI技术

AI工具AI绘图SDXL Turbo文本生成图像深度学习计算机视觉

SDXL Turbo运用先进的对抗性稳定扩散蒸馏技术，实现单步快速生成高质量图像。此模型适用于实时应用场景，在艺术创作、教育研究等领域展现广泛前景。用户可通过在线平台免费体验SDXL Turbo，亲身感受AI即时图像生成的强大功能。

CogView - 中文文字生成逼真图像，支持英文和中文输入

CogViewGithubImageRewardNeurIPS 2023text-to-imagetransformer开源项目

CogView是一个基于4B参数预训练的转换器，用于生成通用领域的文本到图像。最新版本CogView2显著提升了生成速度，并扩展支持英文输入。用户可以通过Github和Wudao平台体验并下载预训练模型。项目还包含超分辨率和图像到文本转换功能，并提供详细的设置和运行指南。该项目获得NeurIPS 2021认可，并推荐使用PB-relax和Sandwich-LN技术稳定训练大型转化器。

stable-diffusion-3-medium - 基于多模态扩散变换器的开源AI图像生成模型

GithubHuggingfaceStable Diffusion 3人工智能绘画图像生成模型开源项目文本生成图像模型非商业许可

Stable Diffusion 3 Medium是Stability AI开发的文本生成图像模型，采用多模态扩散变换器(MMDiT)架构，集成OpenCLIP、CLIP和T5三种文本编码器。模型通过10亿图像预训练和3000万张图像微调，支持图像生成、字体排版等功能。提供多种模型变体，可通过ComfyUI或API使用，仅限非商业研究用途。

MDT - MDTv2图像合成模型：更快收敛和卓越性能

GithubMasked Diffusion Transformer人工智能图像合成开源项目深度学习计算机视觉

MDTv2是一种先进的深度学习图像合成模型，在ImageNet数据集上实现了1.58的FID分数，创造新的业界标准。该模型采用掩码潜在建模技术，提高了图像语义理解能力，学习速度比先前模型快10倍以上。MDTv2在图像生成质量和训练效率方面都有显著提升，为计算机视觉和人工智能领域带来了新的可能性。

LLMGA - 用于精确图像生成和编辑的多模态大语言模型

ECCV2024GithubLLMGA图像生成多模态大模型开源项目

LLMGA基于多模态大语言模型，提供图像生成与编辑解决方案。结合Stable Diffusion和详细语言生成提示，项目提升了上下文理解并减少生成过程中的噪音，增强图像内容的精度。LLMGA支持文本到图像（T2I）、补画、扩画及指令编辑，适用于Logo设计、海报制作和故事绘本生成，支持中英文指令。广泛的模型和数据集选择满足不同需求，是理想的图像生成和编辑助手。

LLM-groundedDiffusion - 优化文本到图像合成的提示理解能力

GPT-4GithubHuggingFaceLLM-grounded DiffusionStable DiffusionTMLR开源项目

本项目通过将大型语言模型（LLM）与文本到图像扩散模型结合，提高了提示理解能力。LLM负责解析文本请求，生成中间表示如图像布局，最终通过稳定扩散模型生成高质量图像。项目支持多种生成方法和开源模型，用户可自行设置实现自托管，从而节约API调用成本。项目更新频繁，包括支持高分辨率生成和集成SDXL精炼器等功能。

SRGAN - 使用生成对抗网络提升单图像超分辨率效果

GithubSRGANTensorLayerXVGG19开源项目计算机视觉超分辨率

本项目展示了使用生成对抗网络（GAN）如何实现单图像的高分辨率超分辨率。使用预训练的VGG19模型和高分辨率图像进行训练，支持多种深度学习框架，如TensorFlow、PaddlePaddle、MindSpore，未来还将支持PyTorch。项目提供完整的训练和评估指南，并通过简单的代码修改可以切换不同的后端框架。适用于图像处理和计算机视觉领域的研究人员和开发人员，项目中展示了技术实现的详细结果，还提供了参考文献和讨论资源。

DeepFloyd IF - 突破性的开源文本到图像AI模型

AI工具AI绘图DeepFloyd IF开源模型扩散模型文本生成图像

DeepFloyd IF是一款开源的文本到图像生成AI模型,采用冻结文本编码器和三级级联像素扩散模块架构。该模型在COCO数据集上实现6.66的零样本FID分数,生成的图像逼真度高且具备语言理解能力。DeepFloyd IF支持梦境生成、风格迁移、超分辨率和图像修复等多项功能,展现了大型UNet架构在级联扩散模型中的潜力,为文本到图像合成技术的发展提供了新方向。

Lumina-mGPT - 多模态AI模型实现文本到图像的灵活生成

GithubLumina-mGPT人工智能图像生成多模态开源项目自回归模型

Lumina-mGPT是一个多模态自回归模型系列，适用于多种视觉和语言任务。这个开源项目特别擅长将文本描述转化为逼真图像，提供7B和34B两种参数规模的模型，以及多种图像分辨率选项。除图像生成外，Lumina-mGPT还支持图像理解和全能型任务，为AI研究和应用开发提供了灵活的工具。

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号