#视觉生成

Open-MAGVIT2: 突破自回归视觉生成的新纪元

2024年09月04日
Cover of Open-MAGVIT2: 突破自回归视觉生成的新纪元

OmniTokenizer: 革命性的联合图像和视频标记器

2024年09月04日
Cover of OmniTokenizer: 革命性的联合图像和视频标记器

UniControl: 一个统一的可控视觉生成模型

2024年09月04日
Cover of UniControl: 一个统一的可控视觉生成模型
相关项目
Project Cover

UniControl

UniControl项目展示了一种新的多任务条件生成模型,支持多种语言提示,通过增强的预训练文本到图像扩散模型和任务感知的HyperNet,实现高精度图像生成和多任务适应。实验结果表明,UniControl在多个单任务控制方法上表现更佳,是可控视觉生成领域的重要进展。

Project Cover

OmniTokenizer

OmniTokenizer是一个图像和视频联合标记器,采用单一模型和权重,提供最先进的重建性能。它具有高分辨率和长视频适应性,可与语言模型和扩散模型结合实现视觉生成。项目提供预训练模型、训练脚本和评估工具,支持VQVAE和VAE版本,为视觉生成研究提供基础设施。

Project Cover

Open-MAGVIT2

Open-MAGVIT2是一个创新的自回归视觉生成项目,采用无查找技术和262144大小的码本,克服了VQGAN的局限性。该项目用PyTorch重新实现MAGVIT2分词器,在图像分词方面取得显著进展,8倍下采样时rFID达到0.39。项目致力于推动自回归视觉生成领域发展,目前处于积极开发阶段,未来计划拓展至视频生成领域。

Project Cover

PromptPort

PromptPort集成了多样化的创意写作提示和实用工具。平台提供故事、诗歌和散文等多种文体的创作灵感,帮助克服创作瓶颈。用户可以轻松探索各类提示,找到适合的创作方向。平台还整合了文本生成、视觉生成和优化工具,以及日常签到功能,为创作过程提供全面支持。PromptPort致力于激发创意,提升写作体验。支持GPT模型和视频提示功能,为创意写作爱好者提供全方位的创作工具和灵感来源。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号