Project Icon

FLAVR

创新视频帧插值方法实现快速多帧预测

FLAVR是一种新型视频帧插值方法,无需光流估计即可实现快速多帧预测。该方法采用特殊的编码器-解码器架构,结合时空卷积和通道门控,能有效捕捉复杂运动轨迹并生成高质量高帧率视频。相比现有技术,FLAVR在速度和准确性间取得更好平衡,为视频慢动作和帧率提升等应用提供新选择。

FLAVR: 用于快速帧插值的流不敏感视频表示

WACV 2023(最佳论文入围者)

示例1 示例2

[项目页面] [论文] [[项目视频](https://github.com/tarun005/FLAVR/blob/main/youtu.be/HFOY7CGpJRM]

FLAVR是一种快速、无需光流的帧插值方法,能够进行单次多帧预测。它使用定制的编码器-解码器架构,结合时空卷积和通道门控,捕捉并插值帧间复杂的运动轨迹,生成逼真的高帧率视频。此仓库包含原始源代码。

推理时间

与先前的帧插值方法相比,FLAVR在速度和精度之间提供了更好的权衡。

方法512x512图像的FPS(秒)
FLAVR3.10
SuperSloMo3.33
QVI1.02
DAIN0.77

依赖项

我们使用以下环境来训练和测试模型:

  • Ubuntu 18.04
  • Python==3.7.4
  • numpy==1.19.2
  • PyTorch==1.5.0, torchvision==0.6.0, cudatoolkit==10.1

模型

在Vimeo-90K七元组上训练模型

要在Vimeo-90K数据集上训练自己的模型,请使用以下命令。您可以从此链接下载数据集。论文中报告的结果是使用8个GPU训练的。

python main.py --batch_size 32 --test_batch_size 32 --dataset vimeo90K_septuplet --loss 1*L1 --max_epoch 200 --lr 0.0002 --data_root <数据集路径> --n_outputs 1

在GoPro数据集上训练类似,将n_outputs改为7以进行8倍插值。

使用训练好的模型进行测试

预训练模型

您可以从以下链接下载预训练的FLAVR模型:

方法训练模型
2x链接
4x链接
8x链接

2倍插值

要在Vimeo-90K七元组验证集上测试预训练模型,可以运行以下命令:

python test.py --dataset vimeo90K_septuplet --data_root <数据路径> --load_from <保存的模型> --n_outputs 1

8倍插值

要测试多帧插值模型,使用相同的命令和多帧FLAVR模型,相应地更改n_outputs

时间基准测试

测试脚本除了计算PSNR和SSIM值外,还将输出插值的推理时间和速度。

在Middleburry上评估

要在Middleburry公开基准上进行评估,请运行以下命令:

python Middleburry_Test.py --data_root <数据路径> --load_from <模型路径> 

插值后的图像将以可直接上传到 排行榜 的格式保存在 Middleburry 文件夹中。

在自定义视频上使用 SloMo-Filter

你可以使用我们训练好的模型,并将慢动作滤镜应用到你自己的视频上(需要 OpenCV 4.2.0)。使用以下命令。如果你想将 30FPS 的视频转换为 240FPS 的视频,只需使用以下命令

python interpolate.py --input_video <输入视频> --factor 8 --load_model <模型路径>

使用我们的 预训练模型 进行 8 倍插值。要将 30FPS 的视频转换为 60FPS 的视频,请使用 2 倍模型,并将 factor 设为 2。

基线模型

我们还在我们的设置上训练了许多其他先前工作的模型,并提供了所有这些方法的模型。完整的基准测试脚本也将很快发布。

新消息 [2024年4月]:由于谷歌对加州大学圣地亚哥分校的谷歌云盘存储限额进行了令人震惊的削减,我失去了对下面列出的其他方法的预训练模型的访问权限。我希望将来能重新训练它们并发布新的链接,但不要指望。抱歉!

方法Vimeo 上的 PSNR训练好的模型
FLAVR36.3模型
AdaCoF35.3模型
QVI*35.15模型
DAIN34.19模型
SuperSloMo*32.90模型
  • SuperSloMo 使用 此处 的代码库实现。其他基线使用官方代码库实现。
  • 这里呈现的基线数据略好于论文中报告的数据。

Google Colab

本仓库的 notebooks 目录中提供了一个 Colab 笔记本,用于在自定义视频上尝试 2 倍慢动作滤镜。

运动放大模型

很遗憾,我们目前无法提供用于运动放大的训练模型。我们正在努力尽快提供一个可用的模型。

致谢

代码大量借鉴了 Facebook 官方的 PyTorch 视频仓库CAIN

引用

如果这个代码对你的工作有帮助,请考虑引用我们。

@article{kalluri2023flavr,
  title={FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation},
  author={Kalluri, Tarun and Pathak, Deepak and Chandraker, Manmohan and Tran, Du},
  booktitle={WACV},
  year={2023}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号