ActionFormer 项目介绍
项目概述
ActionFormer是一个基于Transformer的模型,旨在进行时间动作定位,即识别视频中动作实例的起始和结束时刻,并分类这些动作。该项目通过简单高效的设计在多个基准上展现出色的性能,尤其在THUMOS14数据集上取得了71.0%的平均准确率(mAP),超出之前的最佳模型14.1个百分点,首次突破60%的mAP。此外,ActionFormer还在ActivityNet 1.3和EPIC-Kitchens 100等更具挑战性的基准上展示了强劲的效果。
背景与技术创新
ActionFormer的开发受到近年来Transformer在自然语言处理和视觉领域成功应用的启发。该方法通过局部自注意力机制在未裁剪的视频中建模时间上下文,对输入视频的每一时刻进行分类,并回归其相应的动作边界。最终形成了一个无需动作提议或预定义的锚窗口即可在单次操作中定位动作时刻的深度模型。
取得成果
- 在THUMOS14数据集上,ActionFormer达到了71.0%的mAP,显著超越以往模型。
- 在ActivityNet 1.3数据集上,获得了36.56%的平均mAP。
- 在EPIC-Kitchens 100数据集上,超出了之前的工作13.5个百分点。
- 在Ego4D瞬间查询挑战赛中是许多获胜解决方案的核心,其中一个提交方案排名第二,创造了21.76%的平均mAP和42.54%的Recall@1x(tIoU=0.5)。
使用指南
环境安装
需要安装一些依赖和编译代码,详细步骤请参见项目的INSTALL.md文件。
数据准备
在不同的数据集上复现结果前,需要准备对应的特征和注释文件,将其解压到指定路径下,并按照提供的格式组织目录结构。这些数据主要包含从预训练模型中提取的特征,以及动作的注释。
模型训练与评估
提供了不同数据集的配置文件,可通过这些配置文件进行模型训练和评估。例如,对于THUMOS14数据集,可以使用以下命令进行训练:
python ./train.py ./configs/thumos_i3d.yaml --output reproduce
评估的结果应该接近文献中报告的值,例如在THUMOS14数据集上mAP期望在66.0%以上。
未来计划
团队计划进一步开发功能,支持用户在自己的数据集上进行训练和评估,目前还在进行中。
项目联系人
如需进一步信息或有任何疑问,可以联系李胤 (yin.li@wisc.edu)。
参考文献
如果您在研究中使用了我们的代码,请考虑引用我们的相关论著。代码、技术报告、TSP特征提取等都有相关的引用格式,帮助您在学术论文中适当引用。