InternVideo

视频基础模型助力多模态理解进展

InternVideo 视频基础模型多模态理解视频文本数据集模型更新 Github 开源项目

InternVideo项目致力于开发通用视频基础模型，提升多模态视频理解能力。项目包含InternVideo和InternVideo2两个主要版本，以及大规模视频-文本数据集InternVid。InternVideo2采用生成式和判别式学习方法，在多模态视频理解任务中表现突出。项目不断更新，提供多种规模的模型和丰富的视频注释数据，为研究和开发提供有力支持。

访问官网

Github

Huggingface

介绍相关项目

InternVL2-1B - 多模态大语言模型实现多图像和视频智能理解

GithubHuggingfaceInternVL2人工智能多模态大语言模型开源项目模型自然语言处理计算机视觉

InternVL2-1B是一款新型多模态大语言模型，结合了InternViT-300M-448px视觉模型和Qwen2-0.5B-Instruct语言模型。该模型在文档理解、图表分析和场景文字识别等任务中表现优异，能有效处理长文本、多图像和视频输入。InternVL2-1B在开源多模态模型中表现突出，部分能力可与商业模型比肩。通过采用8k上下文窗口训练，该模型大幅提升了处理长输入序列的能力。

InternVL2-40B - 强化跨模态大语言模型的能力

GithubHuggingfaceInternVL场景文本理解多模态开源项目模型视觉理解计算机视觉

InternVL 2.0 通过融合多模态大语言模型，在文件和图表理解、信息图问答、场景文本理解和OCR任务等方面表现出色。它能够利用长文本、多图片和视频进行训练，提升对多种输入的处理效率，并提供1亿到108亿参数的多种模型可选择，与商业模型相当。在多项基准测试中，InternVL 2.0 展示了其卓越的综合理解能力。

InternVL2-26B - 全新多模态智能体实现长文本多图像及视频的智能理解

AI识别GithubHuggingfaceInternVL2多模态大语言模型开源项目模型计算机视觉

InternVL2-26B是一个基于视觉模型InternViT-6B和语言模型internlm2-chat-20b开发的多模态模型。通过8K上下文窗口支持长文本处理，同时具备多图像和视频分析能力。在文档理解、图表分析和场景文字识别等评测中表现优异，性能达到开源模型领先水平。

VideoLLaMA2 - 增强视频理解的多模态语言模型

AIGithubVideoLLaMA2多模态大语言模型开源项目视频理解

VideoLLaMA2是一款先进的视频语言模型,通过增强空间-时间建模和音频理解能力,提高了视频问答和描述任务的性能。该模型在零样本视频问答等多项基准测试中表现出色。VideoLLaMA2能处理长视频序列并理解复杂视听内容,为视频理解技术带来新进展。

VideoGPT-plus - 双编码器融合提升视频理解能力

GithubVideoGPT+人工智能多模态模型开源项目视频对话视频理解

VideoGPT+是一个创新的视频对话模型，通过集成图像和视频编码器，实现了更精细的空间理解和全局时间上下文分析。模型采用自适应池化技术处理双编码器特征，大幅提升了视频基准测试性能。项目同时推出VCG+ 112K数据集和VCGBench-Diverse基准，为视频对话任务提供全面评估。VideoGPT+在空间理解、推理和视频问答等多项任务中表现优异。

videollm-online - 流式视频实时理解与交互的先进模型

GithubVideoLLM-online大语言模型实时交互开源项目流媒体视频视频处理

VideoLLM-online是一款针对流媒体视频的在线大语言模型。该模型支持视频流实时交互，可主动更新响应，如记录活动变化和提供实时指导。项目通过创新的数据合成方法将离线注释转化为流式对话数据，并采用并行化推理技术实现高速处理，在A100 GPU上处理速度可达10-15 FPS。VideoLLM-online在在线和离线环境中均表现出色，能高效处理长达10分钟的视频，为视频理解与交互领域带来新的可能性。

InternVL2-8B - 多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力

GithubHuggingfaceInternVL2多模态大语言模型开源项目指令微调推理性能模型视觉语言模型

InternVL2-8B是一个基于InternViT-300M-448px和internlm2_5-7b-chat的多模态大语言模型。该模型在文档理解、图表分析和场景文本识别等图像任务中表现优异，同时在视频理解和目标定位方面也展现出强大能力。支持8k上下文窗口，能够处理长文本、多图像和视频输入，在开源多模态模型中具有竞争力。

MiniGPT4-video - 提升视频理解的创新多模态语言模型

GithubGoldfishMiniGPT4-Video多模态开源项目视频理解长视频

MiniGPT4-Video项目采用交错视觉-文本标记技术，大幅提升了多模态大语言模型的视频理解能力。该模型在短视频理解方面表现优异，多项基准测试中均优于现有方法。项目还开发了Goldfish框架，专门应对任意长度视频的处理难题，有效解决了长视频理解中的噪声、冗余和计算挑战。这些创新成果为视频分析和理解领域开辟了新的可能性。

InternVL - 开源多模态模型包提供商业级性能

GPT-4oGithubInternVLSOTA性能多模态模型开源开源项目

InternVL项目，作为一个领先的开源多模态模型套件，提供可媲美商业模型GPT-4o的性能。该项目开放源代码，支持多语种和高效OCR功能，在多个benchmark中展现出顶尖性能。该平台包括多种模型，如InternVL2-Pro和Mini-InternVL系列，适用于从聊天机器人至复杂多模态文档理解的应用场景。完备的文档资料和快速启动指南为社区成员提供便捷的使用和优化体验。

InternImage - 突破大规模视觉基础模型性能极限

GithubInternImage图像分类大规模视觉模型开源项目目标检测语义分割

InternImage是一款采用可变形卷积技术的大规模视觉基础模型。它在ImageNet分类任务上实现90.1%的Top1准确率,创下开源模型新纪录。在COCO目标检测基准测试中,InternImage达到65.5 mAP,成为唯一突破65.0 mAP的模型。此外,该模型在涵盖分类、检测和分割等任务的16个重要视觉基准数据集上均展现出卓越性能,树立了多个领域的新标杆。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号