VNext

高级视频实例分割框架，支持在线和离线模式

VNext 视频实例分割 InstMove IDOL SeqFormer Github 开源项目

VNext是一个基于Detectron2的视频实例识别框架，提供先进的在线和离线实例分割算法及对象中心的视频分割运动模型。用户可参考官方教程进行安装、训练和评估。最新算法InstMove、IDOL和SeqFormer在国际会议上获得认可并取得优异成绩。

convnextv2_base.fcmae_ft_in22k_in1k_384 - 高效图像识别与特征开发的开源解决方案

ConvNeXt-V2GithubHuggingfaceImageNet卷积神经网络图像分类开源项目模型特征提取

ConvNeXt-V2是一款基于全卷积掩码自编码器（FCMAE）预训练的图像分类模型，能够高效处理ImageNet-22k和ImageNet-1k数据集。模型拥有88.7M的参数和45.21 GMACs，适合精准的图像识别和特征开发。兼容timm库，支持图像分类、特征图提取和图像嵌入生成等应用场景。通过简单的Python代码即可调用该模型，提升开发效率。

convnextv2_huge.fcmae_ft_in22k_in1k_384 - 高级卷积网络用于图像分类与特征提取

ConvNeXt-V2GithubHuggingfaceImageNet-1k图像分类开源项目模型特征骨干预训练模型

ConvNeXt-V2是一种先进的卷积网络模型，专为图像分类与特征提取而设计。此模型通过全卷积掩码自编码器进行预训练，并在ImageNet-22k和ImageNet-1k上进行微调。具备660.3M参数和338.0 GMACs的计算成本，专为384x384大小的图像设计，确保高效处理与高精度结果。其在主流图像分类任务中的表现卓越，达到88.668的Top-1准确率和98.738的Top-5准确率，其框架优化适配多种计算场景。

convnextv2-atto-1k-224 - ConvNeXt V2 提升卷积网络性能的先进图像分类模型

ConvNeXt V2FCMAE框架GithubHuggingfaceImageNet-1K卷积神经网络图像分类开源项目模型

ConvNeXt V2 是一种创新的图像分类模型，利用 FCMAE 框架在 ImageNet-1K 数据集上进行微调。该模型结合了全卷积掩码自编码器和新型 GRN 层，有效提升了在多项识别基准上的性能。模型能够进行图像分类，预测应用于 ImageNet 1,000 类问题，是计算机视觉任务的高效选择。

XMem - 长时视频对象分割的解决方案，基于人类多尺度记忆模型

Atkinson-Shiffrin记忆模型ECCVGPU内存优化GithubXMem开源项目视频对象分割

XMem项目采用Atkinson-Shiffrin记忆模型，提供了一种全新的视频对象分割（VOS）方法。通过结合不同时间尺度的记忆单元，有效避免在处理长时视频时出现的计算和GPU内存问题。XMem可处理超过10000帧的视频，在有限GPU资源下仍保持高效，处理速度达每秒20帧，并附带简化版GUI。项目中还提供了详细的训练和推理指南，适用于实验和实际应用。

LLaVA-NeXT-Video-7B-hf - 先进多模态AI模型实现视频和图像理解

GithubHuggingfaceLLaVA-NeXT-Video人工智能多模态大语言模型开源项目模型视频理解

LLaVA-NeXT-Video-7B-hf是一个开源多模态AI模型，通过视频和图像数据的混合微调，实现了出色的视频理解能力。该模型支持多视觉输入和多提示生成，在VideoMME基准测试中表现优异。基于Vicuna-7B语言模型，可处理视频问答和图像描述等视觉任务。模型支持4位量化和Flash Attention 2优化，提供灵活高效的使用方式。

videollm-online - 流式视频实时理解与交互的先进模型

GithubVideoLLM-online大语言模型实时交互开源项目流媒体视频视频处理

VideoLLM-online是一款针对流媒体视频的在线大语言模型。该模型支持视频流实时交互，可主动更新响应，如记录活动变化和提供实时指导。项目通过创新的数据合成方法将离线注释转化为流式对话数据，并采用并行化推理技术实现高速处理，在A100 GPU上处理速度可达10-15 FPS。VideoLLM-online在在线和离线环境中均表现出色，能高效处理长达10分钟的视频，为视频理解与交互领域带来新的可能性。

upernet-convnext-small - 高效语义分割框架融合ConvNeXt技术

ConvNeXtGithubHuggingfaceUperNet图像分割开源项目模型计算机视觉语义分割

UperNet是一种结合ConvNeXt骨干网络的语义分割框架，融合了特征金字塔网络(FPN)和金字塔池化模块(PPM)。它能为每个像素生成语义标签，适用于场景理解和图像分割等计算机视觉任务。该模型提供多种预训练版本，可根据具体需求应用于不同场景。UperNet的设计旨在提高语义分割的准确性和效率，为研究人员和开发者提供了强大的图像分析工具。

AVDC - 从无动作视频学习行为的AI训练框架

AVDCGithub实验代码开源项目无动作视频深度对应视频策略训练

AVDC是一个创新的AI训练框架，能够从无动作视频中学习行为策略。该项目支持Meta-World、iTHOR等多个环境，提供完整的代码库、预训练模型和详细文档。AVDC具有灵活的训练和推理功能，方便研究人员快速上手和复现实验结果，为计算机视觉和机器人学习领域带来新的可能性。

convnext-xlarge-384-22k-1k - 融合现代设计的高性能图像分类卷积神经网络

ConvNeXTGithubHuggingface图像分类开源项目模型深度学习神经网络计算机视觉

ConvNeXT是一种创新的纯卷积神经网络模型，结合了ResNet的现代化设计和Swin Transformer的先进理念。该模型在ImageNet-22k数据集上进行了大规模预训练，并在ImageNet-1k上以384x384分辨率精细调优，展现出卓越的图像分类性能。ConvNeXT不仅适用于各类计算机视觉任务，还凸显了传统卷积网络在当代人工智能领域的持续价值和潜力。

Open-LLaVA-NeXT - 多模态大语言模型实现视觉语言对齐和指令微调的开源项目

AI模型评估GithubLLaVA-NeXT多模态模型开源实现开源项目视觉语言训练

Open-LLaVA-NeXT是一个复现LLaVA-NeXT系列模型的开源项目。它提供开源训练数据和检查点，基于LLaVA代码库进行修改。该项目支持CLIP-L-336视觉编码器以及Vicuna-7B和LLaMA3-8B等语言模型。通过特征对齐和视觉指令微调两个阶段的训练，Open-LLaVA-NeXT实现了多模态能力，在多项评估任务中表现优异。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com