#视频分类

videomae-base-finetuned-kinetics - VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率

神经网络计算机视觉开源项目自监督学习模型VideoMAEGithub视频分类Huggingface

VideoMAE是一个基于MAE架构的视频分析模型，采用Vision Transformer结构。经过1600轮自监督预训练和有监督微调，该模型在Kinetics-400数据集上实现了80.9%的top-1准确率和94.7%的top-5准确率。模型将视频切分为16x16的图像块进行处理，支持400种视频类别的分类任务，可应用于视频内容分析和行为识别等领域。

videomae-large - 视频自监督学习的高效模型

自监督Github视频预训练开源项目VideoMAEHuggingface视频分类模型

VideoMAE大型模型在Kinetics-400数据集上进行自监督预训练，采用掩码自编码器方法，有效学习视频的内在表示。利用视觉Transformer架构，通过将视频划分为固定大小的图像块，结合线性嵌入和位置编码，进行深度分析和像素预测，适用于多种后续任务和特征提取，包括视频分类和处理。

timesformer-base-finetuned-k600 - 采用空间时间注意力的视频分类技术，提升视频理解能力

Kinetics-600TimeSformer视频分类空间时间注意力深度学习模型Github开源项目Huggingface

TimeSformer模型运用空间时间注意力机制进行视频分类，能够识别Kinetics-600中的600种标签。该工具旨在提升视频理解的准确性，提供简便的视觉分析能力。

timesformer-base-finetuned-k400 - TimeSformer视频分类模型的Kinetics-400数据集实现

TimeSformerKinetics-400开源项目模型Github机器学习视频分类Huggingface视频理解

TimeSformer是一个基于空间-时间注意力机制的视频分类模型，在Kinetics-400数据集上完成微调。该模型支持400类视频标签分类，由Facebook Research开发并在Hugging Face平台开源。模型采用transformer架构处理视频序列，可通过Python接口实现快速部署和预测。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号