PySlowFast
PySlowFast是FAIR开发的开源视频理解代码库,提供了高效训练的最先进视频分类模型。该仓库包含以下方法的实现:
- 用于视频识别的SlowFast网络
- 非局部神经网络
- 用于高效训练视频模型的多重网格方法
- X3D:用于高效视频识别的渐进式网络扩展
- 多尺度视觉Transformer
- 无监督时空表示学习的大规模研究
- MViTv2:改进的多尺度视觉Transformer用于分类和检测
- 用于自监督视觉预训练的掩码特征预测
- 作为时空学习器的掩码自编码器
- 可逆视觉Transformer
简介
PySlowFast的目标是提供一个高性能、轻量级的PyTorch代码库,为不同任务(分类、检测等)的视频理解研究提供最先进的视频骨干网络。它的设计旨在支持快速实现和评估新颖的视频研究想法。PySlowFast包含以下骨干网络架构的实现:
- SlowFast
- Slow
- C2D
- I3D
- 非局部网络
- X3D
- MViTv1和MViTv2
- Rev-ViT和Rev-MViT
更新
- 我们现在支持可逆视觉Transformer。可逆ViT和MViT模型已发布。请查看
projects/rev
。 - 我们现在支持视频MAE。更多信息请查看
projects/mae
。 - 我们现在支持MaskFeat。更多信息请查看
projects/maskfeat
。 - 我们现在在PySlowFast中支持MViTv2。更多信息请查看
projects/mvitv2
。 - 我们现在支持无监督时空表示学习的大规模研究。更多信息请查看
projects/contrastive_ssl
。 - 我们现在支持Kinetics和ImageNet上的多尺度视觉Transformer。更多信息请查看
projects/mvit
。 - 我们现在支持PyTorchVideo模型和数据集。更多信息请查看
projects/pytorchvideo
。 - 我们现在支持X3D模型。更多信息请查看
projects/x3d
。 - 我们现在支持多重网格训练,用于高效训练视频模型。更多信息请查看
projects/multigrid
。 - PySlowFast与我们的ICCV 2019教程同时发布。
许可证
PySlowFast在Apache 2.0许可证下发布。
模型库和基准
我们提供了一大组基准结果和可下载的训练模型,可在PySlowFast模型库中找到。
安装
请在INSTALL.md中查找PyTorch和PySlowFast的安装说明。您可以按照DATASET.md中的说明准备数据集。
快速开始
按照GETTING_STARTED.md中的示例开始使用PySlowFast玩转视频模型。
可视化工具
我们提供了一系列可视化工具,用于训练/评估/测试过程、模型分析,以及使用训练好的模型进行推理。 更多信息请查看可视化工具。
贡献者
PySlowFast由Haoqi Fan、Yanghao Li、Bo Xiong、Wan-Yen Lo和Christoph Feichtenhofer编写和维护。
引用PySlowFast
如果您在研究中发现PySlowFast有用,请使用以下BibTeX条目进行引用。
@misc{fan2020pyslowfast,
author = {Haoqi Fan and Yanghao Li and Bo Xiong and Wan-Yen Lo and
Christoph Feichtenhofer},
title = {PySlowFast},
howpublished = {\url{https://github.com/facebookresearch/slowfast}},
year = {2020}
}