#文本到视频生成
SoraReview - 大型视觉模型的技术进展与应用前景分析
Sora大视觉模型文本到视频生成人工智能OpenAIGithub开源项目
本项目综述了Sora等大型视觉模型的发展背景、核心技术和应用前景。内容涵盖数据预处理、模型架构和语言指令处理等关键技术,并分析了在电影制作、教育等领域的潜在应用。同时探讨了安全性和公平性等挑战,为视频生成AI的未来发展提供了全面的技术洞察。
Awesome-Video-Diffusion-Models - 视频扩散模型研究进展与开源资源综述
视频生成模型开源工具箱数据集评估指标文本到视频生成Github开源项目
本文综述了视频扩散模型领域的研究进展和开源资源。内容包括最新工具箱、基础模型、数据集和评估指标,涵盖文本到视频生成、视频编辑和理解等多个方向。文章系统梳理了该领域的关键技术和资源,为研究人员和开发者提供全面参考,有助于推动视频生成和处理技术的发展。
HD-VG-130M - 大规模文本-视频对数据集助力AI视频生成研究
HD-VG-130M数据集文本到视频生成学术研究高清无水印Github开源项目
HD-VG-130M是一个包含1.3亿对高清、宽屏、无水印的开放域文本-视频对的大规模数据集。专为AI视频生成研究设计,即将推出经过文本、动作和美学筛选的4000万高质量子集。目前已被50多家学术机构使用,仅限学术研究用途。研究者可通过Google Drive获取数据,并须遵守相关许可协议。
VideoTetris - 创新视频生成技术 实现复杂语义精确组合
VideoTetris文本到视频生成组合式生成时空组合扩散长视频生成Github开源项目
VideoTetris是一个视频生成框架,采用时空组合扩散技术实现复杂文本语义的精确表达。通过操控去噪网络的注意力图,在空间和时间维度上控制视频生成。项目提出了视频数据预处理方法,提升了训练数据的动态性和提示理解能力。VideoTetris可生成10秒至2分钟或更长的视频,为复杂场景视频生成提供了新方案。
相关文章