掩码自编码器作为时空学习器:PyTorch实现
这是论文《掩码自编码器作为时空学习器》的PyTorch/GPU重新实现:
@Article{MaskedAutoencodersSpatiotemporal2022,
author = {Christoph Feichtenhofer and Haoqi Fan and Yanghao Li and Kaiming He},
journal = {arXiv:2205.09113},
title = {Masked Autoencoders As Spatiotemporal Learners},
year = {2022},
}
支持AVA和SSv2下游评估的另一个实现可在PySlowFast中找到。
-
本仓库是对MAE仓库的修改。安装和准备步骤请参考INSTALL.md。
-
本仓库基于
timm==0.3.2
,需要应用修复以与PyTorch 1.8.1+兼容。
目录
- 可视化演示
- 预训练检查点 + 微调代码 + 测试代码
- 预训练代码
可视化演示
对同一视频使用95%(左)和98%(右)掩码率的MAE输出可视化。
使用Colab笔记本运行我们的交互式可视化演示(无需GPU):
使用预训练检查点进行微调
下表提供了论文中使用的预训练检查点,使用90%掩码率和1600个有效轮次进行预训练,从PySlowFast代码库转换而来:
微调说明请参见FINETUNE.md。
预训练
预训练说明请参见PRETRAIN.md。
许可证
本项目采用CC-BY-NC 4.0许可证。详情请参见LICENSE。