#视觉生成

UniControl - 优化多任务条件生成的统一扩散模型

UniControl控制生成视觉生成模型训练任务推理Github开源项目

UniControl项目展示了一种新的多任务条件生成模型，支持多种语言提示，通过增强的预训练文本到图像扩散模型和任务感知的HyperNet，实现高精度图像生成和多任务适应。实验结果表明，UniControl在多个单任务控制方法上表现更佳，是可控视觉生成领域的重要进展。

OmniTokenizer - 联合图像视频标记器实现高效视觉生成

OmniTokenizer视觉生成图像视频联合标记器VQVAE语言模型Github开源项目

OmniTokenizer是一个图像和视频联合标记器，采用单一模型和权重，提供最先进的重建性能。它具有高分辨率和长视频适应性，可与语言模型和扩散模型结合实现视觉生成。项目提供预训练模型、训练脚本和评估工具，支持VQVAE和VAE版本，为视觉生成研究提供基础设施。

Open-MAGVIT2 - 自回归视觉生成新突破大幅提升图像分词性能

Open-MAGVIT2视觉生成图像分词器自回归模型大规模词表Github开源项目

Open-MAGVIT2是一个创新的自回归视觉生成项目，采用无查找技术和262144大小的码本，克服了VQGAN的局限性。该项目用PyTorch重新实现MAGVIT2分词器，在图像分词方面取得显著进展，8倍下采样时rFID达到0.39。项目致力于推动自回归视觉生成领域发展，目前处于积极开发阶段，未来计划拓展至视频生成领域。

PromptPort - 多元化创意写作提示与工具集成平台

AI工具PromptPortGPTs视频提示文本生成视觉生成

PromptPort集成了多样化的创意写作提示和实用工具。平台提供故事、诗歌和散文等多种文体的创作灵感，帮助克服创作瓶颈。用户可以轻松探索各类提示，找到适合的创作方向。平台还整合了文本生成、视觉生成和优化工具，以及日常签到功能，为创作过程提供全面支持。PromptPort致力于激发创意，提升写作体验。支持GPT模型和视频提示功能，为创意写作爱好者提供全方位的创作工具和灵感来源。

相关文章

Article Cover

UniControl: 一个统一的可控视觉生成模型

Article Cover

OmniTokenizer: 革命性的联合图像和视频标记器

Article Cover

Open-MAGVIT2: 突破自回归视觉生成的新纪元

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号