#视觉生成

UniControl - 优化多任务条件生成的统一扩散模型
UniControl控制生成视觉生成模型训练任务推理Github开源项目
UniControl项目展示了一种新的多任务条件生成模型,支持多种语言提示,通过增强的预训练文本到图像扩散模型和任务感知的HyperNet,实现高精度图像生成和多任务适应。实验结果表明,UniControl在多个单任务控制方法上表现更佳,是可控视觉生成领域的重要进展。
OmniTokenizer - 联合图像视频标记器实现高效视觉生成
OmniTokenizer视觉生成图像视频联合标记器VQVAE语言模型Github开源项目
OmniTokenizer是一个图像和视频联合标记器,采用单一模型和权重,提供最先进的重建性能。它具有高分辨率和长视频适应性,可与语言模型和扩散模型结合实现视觉生成。项目提供预训练模型、训练脚本和评估工具,支持VQVAE和VAE版本,为视觉生成研究提供基础设施。
Open-MAGVIT2 - 自回归视觉生成新突破 大幅提升图像分词性能
Open-MAGVIT2视觉生成图像分词器自回归模型大规模词表Github开源项目
Open-MAGVIT2是一个创新的自回归视觉生成项目,采用无查找技术和262144大小的码本,克服了VQGAN的局限性。该项目用PyTorch重新实现MAGVIT2分词器,在图像分词方面取得显著进展,8倍下采样时rFID达到0.39。项目致力于推动自回归视觉生成领域发展,目前处于积极开发阶段,未来计划拓展至视频生成领域。
PromptPort - 多元化创意写作提示与工具集成平台
AI工具PromptPortGPTs视频提示文本生成视觉生成
PromptPort集成了多样化的创意写作提示和实用工具。平台提供故事、诗歌和散文等多种文体的创作灵感,帮助克服创作瓶颈。用户可以轻松探索各类提示,找到适合的创作方向。平台还整合了文本生成、视觉生成和优化工具,以及日常签到功能,为创作过程提供全面支持。PromptPort致力于激发创意,提升写作体验。支持GPT模型和视频提示功能,为创意写作爱好者提供全方位的创作工具和灵感来源。