#VideoMAE
videomae-base-finetuned-kinetics - VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率
神经网络计算机视觉开源项目自监督学习模型VideoMAEGithub视频分类Huggingface
VideoMAE是一个基于MAE架构的视频分析模型,采用Vision Transformer结构。经过1600轮自监督预训练和有监督微调,该模型在Kinetics-400数据集上实现了80.9%的top-1准确率和94.7%的top-5准确率。模型将视频切分为16x16的图像块进行处理,支持400种视频类别的分类任务,可应用于视频内容分析和行为识别等领域。
videomae-large - 视频自监督学习的高效模型
自监督Github视频预训练开源项目VideoMAEHuggingface视频分类模型
VideoMAE大型模型在Kinetics-400数据集上进行自监督预训练,采用掩码自编码器方法,有效学习视频的内在表示。利用视觉Transformer架构,通过将视频划分为固定大小的图像块,结合线性嵌入和位置编码,进行深度分析和像素预测,适用于多种后续任务和特征提取,包括视频分类和处理。