#视频分类
videomae-base-finetuned-kinetics - VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率
神经网络计算机视觉开源项目自监督学习模型VideoMAEGithub视频分类Huggingface
VideoMAE是一个基于MAE架构的视频分析模型,采用Vision Transformer结构。经过1600轮自监督预训练和有监督微调,该模型在Kinetics-400数据集上实现了80.9%的top-1准确率和94.7%的top-5准确率。模型将视频切分为16x16的图像块进行处理,支持400种视频类别的分类任务,可应用于视频内容分析和行为识别等领域。
videomae-large - 视频自监督学习的高效模型
自监督Github视频预训练开源项目VideoMAEHuggingface视频分类模型
VideoMAE大型模型在Kinetics-400数据集上进行自监督预训练,采用掩码自编码器方法,有效学习视频的内在表示。利用视觉Transformer架构,通过将视频划分为固定大小的图像块,结合线性嵌入和位置编码,进行深度分析和像素预测,适用于多种后续任务和特征提取,包括视频分类和处理。
timesformer-base-finetuned-k600 - 采用空间时间注意力的视频分类技术,提升视频理解能力
Kinetics-600TimeSformer视频分类空间时间注意力深度学习模型Github开源项目Huggingface
TimeSformer模型运用空间时间注意力机制进行视频分类,能够识别Kinetics-600中的600种标签。该工具旨在提升视频理解的准确性,提供简便的视觉分析能力。
timesformer-base-finetuned-k400 - TimeSformer视频分类模型的Kinetics-400数据集实现
TimeSformerKinetics-400开源项目模型Github机器学习视频分类Huggingface视频理解
TimeSformer是一个基于空间-时间注意力机制的视频分类模型,在Kinetics-400数据集上完成微调。该模型支持400类视频标签分类,由Facebook Research开发并在Hugging Face平台开源。模型采用transformer架构处理视频序列,可通过Python接口实现快速部署和预测。