T2I-CompBench

组合式文本到图像生成的全面评估基准

T2I-CompBench++文本生成图像评估基准组合能力 AI模型 Github 开源项目

T2I-CompBench++是一个用于评估组合式文本到图像生成的增强基准。它引入了人工评估图像-分数对、更全面的组合测试以及被Stable Diffusion 3等模型采用的新评估指标。该基准涵盖颜色、形状、纹理和空间关系等多个方面,通过多种方法全面衡量模型的组合能力。研究人员可利用此基准进行模型训练和评估,促进组合式图像生成技术的进步。

访问官网

Github

介绍相关项目

VideoTuna - 多模型集成的AI生成解决方案

AI视频生成GithubVideoTuna图像到视频开源项目文本到视频视频自动化

VideoTuna项目集成多种AI视频生成模型，支持从文本到视频、图像到视频及文本到图像的生成任务。该项目提供全方位的视频生成流程，涵盖预训练、持续训练、后续对齐和微调操作。平台包含U-Net与DiT结构的生成模型，并推出3D视频VAE和可控人脸视频生成模型，为开发者提供提升视频生成自动化和效果的工具。

T-GATE - 研究了在文本到图像扩散模型中的时序注意机制

GithubTGATE图像生成开源项目扩散模型自注意力跨注意力

TGATE项目研究了在文本到图像扩散模型中的时序注意机制。研究发现，交叉注意输出在几步推理后可以收敛到固定点，通过采用缓存和重用这些输出的方式，无需额外训练，即可提升现有模型的运行速度10%–50%。TGATE易于集成，提供快速图像生成，适用于CNN U-Net、Transformer和Consistency Model。

CLIP-ViT-B-32-256x256-DataComp-s34B-b86K - 基于DataComp训练的CLIP多模态视觉语言模型

CLIPDataComp-1BGithubHuggingfaceViT-B-32图像分类开源项目机器学习模型

CLIP ViT-B/32是一个在DataComp-1B数据集上训练的视觉语言模型，通过OpenCLIP框架实现。模型在ImageNet-1k分类任务中实现72.7%零样本准确率，支持图像分类、跨模态检索等研究任务。该开源项目为计算机视觉研究提供了重要的实验基础

stable-diffusion-v1-5 - 文本到图像生成的多平台兼容潜在扩散模型

AI绘图GithubHuggingfaceStable Diffusion开源项目文本到图像模型生成对抗网络生成艺术

Stable Diffusion v1-5 是一个使用潜在扩散技术的文本到图像生成模型，可生成高逼真度的图像。该模型经过多次优化与微调，兼容Diffusers库及多种用户界面，强调安全性并配备NSFW检查器，适用于研究、艺术创作及设计领域。此模型针对不同GPU环境设计，具有高效的生成性能。

blip-itm-large-flickr - 多任务视觉-语言理解与生成模型

BLIPGithubHuggingface图像-文本匹配图像描述开源项目机器学习模型语言-图像理解

BLIP是一个视觉-语言预训练框架，利用Flickr30k数据集提升图像-文本匹配性能。通过合成标题的生成与过滤机制，减少噪声数据对结果的影响。BLIP在多项任务上表现出色，包括图像-文本检索、图像标题生成和视觉问答，此外，还具备视频语言任务的泛化能力。该模型支持条件与无条件的图像标题生成，应用灵活多样。

PixArt-Sigma-XL-2-1024-MS - 基于Transformer的高分辨率图像生成模型

AI绘图GithubHuggingfacePixArt-Σ图像生成开源项目文本转图像模型深度学习

PixArt-Sigma-XL-2-1024-MS是一款基于纯Transformer架构的潜在扩散模型，能够直接从文本生成高达4K分辨率的图像。该模型采用T5文本编码器和VAE潜在特征编码器，适用于艺术创作、设计和教育研究。尽管在生成照片级真实感和复杂构图方面仍有提升空间，但它为文本到图像生成领域带来了新的可能性。

blip2-flan-t5-xxl - 整合CLIP和Flan T5的多模态模型实现图像理解与语言生成

BLIP-2GithubHuggingface图像处理图像标注开源项目模型视觉问答语言模型

BLIP2-FLAN-T5-XXL是一个集成CLIP图像编码器、查询转换器和Flan T5-xxl语言模型的多模态系统。通过查询转换架构连接图像特征和语言理解，实现图像描述生成、视觉问答和基于图像的对话功能。模型支持CPU/GPU部署，提供float16、int8等多种精度配置选项。目前主要应用于图像理解和自然语言生成的研究领域。

stable-diffusion-2-1-unclip - 基于文本和图像嵌入的Stable Diffusion 2.1增强版

GithubHuggingfaceStable Diffusion图像生成开源项目模型模型卡训练数据限制与偏见

Stable Diffusion 2.1的增强版可接受CLIP图像嵌入并生成图像变体，通过噪声水平调节控制。适用于艺术创作、设计和研究用途，探索生成模型的偏见和局限。开发者为Robin Rombach和Patrick Esser，使用CreativeML Open RAIL++-M开放许可，但需注意生成的内容可能存在偏见或不当风险。

stable-video-diffusion-img2vid - AI模型将静态图像转换为动态短视频的创新技术

GithubHuggingfaceStable Video Diffusion人工智能图像到视频生成开源项目模型深度学习计算机视觉

Stable Video Diffusion Image-to-Video是一种先进的AI模型，可将静态图像转化为短视频。该模型利用潜在扩散技术，生成14帧、576x1024分辨率的视频片段。在视频质量方面表现出色，主要应用于生成模型研究和安全部署等领域。尽管存在视频时长短、可能缺乏动作等限制，但该模型为图像到视频转换技术带来了新的可能性。目前仅限于研究用途，不适用于生成事实性或真实性内容。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号