#文本到视频生成

VideoTetris: 革新性的组合式文本到视频生成框架

3 个月前
Cover of VideoTetris: 革新性的组合式文本到视频生成框架

HD-VG-130M: 一个大规模高质量的开源视频数据集

3 个月前
Cover of HD-VG-130M: 一个大规模高质量的开源视频数据集

HD-VG-130M:一个大规模高质量的开放域文本-视频数据集

3 个月前
Cover of HD-VG-130M:一个大规模高质量的开放域文本-视频数据集

视频扩散模型:AI生成视频的新纪元

3 个月前
Cover of 视频扩散模型:AI生成视频的新纪元

Sora: 突破性的人工智能视频生成技术综述

3 个月前
Cover of Sora: 突破性的人工智能视频生成技术综述
相关项目
Project Cover

SoraReview

本项目综述了Sora等大型视觉模型的发展背景、核心技术和应用前景。内容涵盖数据预处理、模型架构和语言指令处理等关键技术,并分析了在电影制作、教育等领域的潜在应用。同时探讨了安全性和公平性等挑战,为视频生成AI的未来发展提供了全面的技术洞察。

Project Cover

Awesome-Video-Diffusion-Models

本文综述了视频扩散模型领域的研究进展和开源资源。内容包括最新工具箱、基础模型、数据集和评估指标,涵盖文本到视频生成、视频编辑和理解等多个方向。文章系统梳理了该领域的关键技术和资源,为研究人员和开发者提供全面参考,有助于推动视频生成和处理技术的发展。

Project Cover

HD-VG-130M

HD-VG-130M是一个包含1.3亿对高清、宽屏、无水印的开放域文本-视频对的大规模数据集。专为AI视频生成研究设计,即将推出经过文本、动作和美学筛选的4000万高质量子集。目前已被50多家学术机构使用,仅限学术研究用途。研究者可通过Google Drive获取数据,并须遵守相关许可协议。

Project Cover

VideoTetris

VideoTetris是一个视频生成框架,采用时空组合扩散技术实现复杂文本语义的精确表达。通过操控去噪网络的注意力图,在空间和时间维度上控制视频生成。项目提出了视频数据预处理方法,提升了训练数据的动态性和提示理解能力。VideoTetris可生成10秒至2分钟或更长的视频,为复杂场景视频生成提供了新方案。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号