Project Icon

SlowFast

开源视频理解框架 提供多种先进模型架构

PySlowFast是FAIR开发的开源视频理解代码库,提供高效训练的先进视频分类模型。支持SlowFast、Non-local Neural Networks、X3D和Multiscale Vision Transformers等多种架构。该框架便于快速实现和评估视频研究创新,涵盖分类、检测等任务。PySlowFast兼具高性能和轻量级特点,适用于广泛的视频理解研究。

SOFT - 无需softmax的线性复杂度Transformer模型
GithubTransformer图像分类开源项目目标检测线性复杂度自注意力机制
SOFT是一种新型Transformer模型,采用无需softmax的归一化自注意力机制,实现了线性复杂度和更强的泛化能力。该模型在图像分类、目标检测和语义分割等计算机视觉任务中表现优异。项目提供多种规模的预训练模型,适用于不同应用场景。开源代码包含完整的训练和评估流程,并附有详细说明,便于研究人员进行深入研究和应用开发。
faiss - 快速向量搜索与聚类库
FaissGPU加速Github向量相似度搜索开源项目聚类高维向量
Faiss是一个开源的高性能向量搜索和聚类库,专为大规模数据集设计。它支持多种索引方法,能够在搜索速度、结果质量和内存使用之间实现平衡。Faiss适用于推荐系统、图像检索等机器学习应用,可处理从小型到超大规模的向量数据。该库由Meta AI研究团队开发,提供C++和Python接口,支持CPU和GPU计算,为高维向量处理提供了高效解决方案。
SimSwap - 支持高保真图像和视频处理的换脸框架
ACM会议GithubPythonSimSwap人脸交换开源项目高分辨率数据集
SimSwap框架实现任意换脸,支持高保真图像和视频处理。采用单一训练模型,无需再次训练。适用于学术和技术用途,提供详细的训练与测试代码。支持高分辨率数据集VGGFace2-HQ,定期更新进展。欢迎工程师加入团队。高质量案例视频可在Google Drive和Bilibili观看。
Far3D - 突破远距离3D目标检测的新框架,提升环视感知能力
3D目标检测Far3DGithub开源项目深度学习自动驾驶计算机视觉
这是一个创新的稀疏查询框架,专注于解决远距离3D目标检测问题。该项目通过2D目标先验生成自适应3D查询,并利用透视感知聚合模块处理多视角和多尺度特征。还开发了范围调制的3D去噪技术,有效解决了查询错误传播和收敛问题。在Argoverse 2和nuScenes数据集上,展现出优异的性能,推动了环视3D目标检测技术的发展。
opennsfw2 - Keras实现的开源NSFW图像视频检测工具
GithubKerasNSFW检测OpenNSFW 2图像分类开源项目预训练模型
opennsfw2是一个基于Keras的开源图像分类模型,用于检测不适宜工作场合(NSFW)的内容。该项目提供简单API,可对图片和视频进行NSFW概率预测。支持TensorFlow和JAX后端,兼容Python 3.9-3.11。项目功能包括图像预处理、模型加载和批量推理,是一个完整的NSFW内容检测工具。
XMem2 - 少量标注实现高精度视频分割的开源工具
GithubXMem++交互式标注人工智能开源项目视频分割计算机视觉
XMem2是一个开源的交互式视频分割工具,通过永久记忆模块和创新帧选择算法,只需少量标注即可实现高质量分割。它能以30+ FPS的速度处理物体部件、流体、可变形物体等复杂场景。XMem2提供改进的GUI和Python接口,适用于电影制作等领域。项目还包含PUMaVOS数据集,涵盖23个具挑战性的视频分割场景。
stable-video-diffusion-img2vid-xt-1-1 - 从图像生成视频的扩散模型的稳定性
GithubHuggingfaceStable Video Diffusion开源项目模型研究用途规定条件视频生成非商业用途
Stable Video Diffusion 1.1 是一款专为研究用途而设计的图像到视频生成模型,通过优化固定条件和运动配置,实现了更一致的视频输出。该模型可以从单张图像生成25帧、分辨率为1024x576的视频片段,但不适用于精确表现真实人物或事件,且不能通过文本进行控制。在探讨生成模型的局限性和偏见时,该模型表现出色。欲了解更多信息,请访问 Stability AI 的 GitHub 仓库。
videomae-base-finetuned-kinetics - VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率
GithubHuggingfaceVideoMAE开源项目模型神经网络自监督学习视频分类计算机视觉
VideoMAE是一个基于MAE架构的视频分析模型,采用Vision Transformer结构。经过1600轮自监督预训练和有监督微调,该模型在Kinetics-400数据集上实现了80.9%的top-1准确率和94.7%的top-5准确率。模型将视频切分为16x16的图像块进行处理,支持400种视频类别的分类任务,可应用于视频内容分析和行为识别等领域。
flowframes - 视频插值工具,支持多种AI模型
DAIN NCNNFLAVR PytorchFlowframesGithubRIFE NCNN开源项目视频插帧
Flowframes是一个Windows视频插值工具,兼容RIFE(Pytorch & NCNN)、DAIN(NCNN)和FLAVR(Pytorch)多种AI实现。作为开源捐赠软件,用户可在itch.io免费下载旧版本或通过Patreon获取最新测试版本。无需复杂配置,支持自动下载依赖。配备Nvidia GPU的用户建议使用CUDA实现以优化性能。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号