#视频理解

mmaction2 - 开源视频理解工具箱MMAction2基于PyTorch实现
OpenMMLabMMAction2视频理解行动识别模型库Github开源项目
MMAction2为基于PyTorch的开源视频理解工具箱,涵盖动作识别、动作定位、时空动作检测等多种任务。项目特点包括模块化设计、丰富的模型库以及详尽文档,支持灵活的自定义配置。
ShareGPT4Video - 通过字幕提高视频理解和生成
ShareGPT4Video视频理解视频生成视频字幕AI模型Github开源项目
ShareGPT4Video项目通过应用高精度字幕显著提升视频理解与生成的效果。该项目提供功能强大的文本至视频模型,支持多种视频时长和分辨率,并设有两种优化效率与质量的推断模式。该项目的目标是通过高质量视频字幕数据集改善文本到视频的转换效果,从而提升大型视频语言模型的理解能力。
dolphin - 通用视频互动平台,基于大型语言模型的视频理解、处理与生成
Dolphin视频理解视频处理视频生成大型语言模型Github开源项目
Dolphin是一个基于大型语言模型的通用视频互动平台,专注于视频理解、处理和生成。该平台支持视频问答、视频剪辑、字幕添加、音频提取及生成等功能,旨在提升视频处理的智能化水平。用户可通过文本生成视频、姿态到视频转换及视频图像转换等多种方式进行创作。项目持续更新,欢迎社区贡献和拉取请求,适用于北航和南洋理工大学的科研项目。
Video-LLaVA - 视频多模态模型,具备像素级定位能力
PG-Video-LLaVA像素级别定锚LMM视频理解音频上下文Github开源项目
PG-Video-LLaVA通过模块化设计,首次实现视频多模态模型具备像素级定位能力。该框架使用现成的追踪器和创新的定位模块,能够根据用户指令在视频中实现空间定位。引入新的基准测试用于评估基于提示的对象定位性能,并结合音频上下文完善视频内容理解,提高在对话和新闻视频等场景中的适用性。改进的定量基准测试确保更高的透明度和可重复性。
CogVLM2 - 基于Llama3-8B的GPT4V级开源多模态模型
CogVLM2CogVLM2-VideoMeta-Llama-3-8B-Instruct视频理解图像理解Github开源项目
CogVLM2是基于Meta-Llama-3-8B-Instruct的下一代模型系列,在多项基准测试中表现优异,支持中英文内容和高分辨率图像处理。该系列模型适用于图像理解、多轮对话和视频理解,特别适合需要处理长文本和高分辨率图像的场景。CogVLM2系列还支持8K内容长度,并在TextVQA和DocVQA等任务中显著提升表现。体验更先进的CogVLM2和CogVLM2-Video模型,迎接未来视觉智能挑战。
MovieChat - 高效长视频处理工具
MovieChat视频理解长视频机器学习AIGithub开源项目
MovieChat能够在24GB显卡上处理超过1万帧的视频,与其他方法相比,GPU显存成本平均减少10000倍(21.3KB/f到约200MB/f)。它集成了视频问答、情感分析和场景理解等功能,显著提高了长视频处理的效率和准确性,适用于大型视频数据集和复杂视频场景的智能问答系统。
Ask-Anything - 视频和图像聊天的全方位工具
VideoChat2ChatGPT视频聊天机器人视频理解OpenGVLabGithub开源项目
Ask-Anything 提供视频和图像聊天的全方位解决方案,利用指令微调技术优化聊天功能。项目支持最新的VideoChat2及其升级版,兼容EgoSchema和Video-MME测试脚本。最新版VideoChat2_HD在多任务长视频理解基准中表现优异,是顶尖的开源选择。
VideoMamba - 突破性的视频理解状态空间模型
VideoMamba视频理解状态空间模型长期视频建模多模态兼容性Github开源项目
VideoMamba是一种创新的视频理解模型,克服了现有技术的局限性。它能高效处理长视频和高分辨率内容,展现出可扩展性、短期动作识别敏感性、长期视频理解优势和多模态兼容性四大核心特点。VideoMamba为全面的视频理解任务提供了高效解决方案,推动了该领域的发展。
VTimeLLM - 创新视频大语言模型实现精准时刻理解
VTimeLLM视频理解大语言模型时间边界感知多阶段训练Github开源项目
VTimeLLM是一种先进的视频大语言模型,专注于精细化视频时刻理解和推理。该模型采用边界感知三阶段训练策略,包括图像-文本特征对齐、多事件视频时间边界识别和高质量视频指令微调。这种方法显著提升了模型的时间理解能力,使其在多项视频理解任务中表现优异。
Awesome-Multimodal-Large-Language-Models - 多模态大语言模型研究资源与最新进展汇总
多模态大语言模型视觉语言模型指令微调视频理解模型评估Github开源项目
该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果,包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向,提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准,为研究人员提供全面参考。
Video-LLaVA - 统一视觉表示学习的新方法 增强跨模态交互能力
Video-LLaVA视觉语言模型多模态视频理解图像理解Github开源项目
Video-LLaVA项目提出了一种新的对齐方法,实现图像和视频统一视觉表示的学习。该模型在无图像-视频配对数据的情况下,展现出色的跨模态交互能力,同时提升图像和视频理解性能。研究显示多模态学习的互补性明显改善了模型在各类视觉任务上的表现,为视觉-语言模型开发提供新思路。
VideoLLaMA2 - 增强视频理解的多模态语言模型
VideoLLaMA2视频理解大语言模型多模态AIGithub开源项目
VideoLLaMA2是一款先进的视频语言模型,通过增强空间-时间建模和音频理解能力,提高了视频问答和描述任务的性能。该模型在零样本视频问答等多项基准测试中表现出色。VideoLLaMA2能处理长视频序列并理解复杂视听内容,为视频理解技术带来新进展。
LLaMA-VID - 支持长视频处理的多模态大语言模型
LLaMA-VID大语言模型视觉语言模型多模态视频理解Github开源项目
LLaMA-VID是一个新型多模态大语言模型,可处理长达数小时的视频。它通过增加上下文令牌扩展了现有框架的能力,采用编码器-解码器结构和定制令牌生成策略,实现对图像和视频的高效理解。该项目开源了完整的模型、数据集和代码,为视觉语言模型研究提供了有力工具。
Video-LLaMA - 指令微调的音视频语言模型实现多模态视频理解
Video-LLaMA多模态视频理解语言模型AI对话Github开源项目
Video-LLaMA是一个多模态AI项目,为大型语言模型赋予视频和音频理解能力。该项目基于BLIP-2和MiniGPT-4构建,包含视觉-语言和音频-语言两个分支。经过大规模视频和图像数据预训练及指令微调后,Video-LLaMA能够进行视频分析、音频理解和多轮对话。该模型支持英文和中文交互,为视频内容分析提供了新的AI解决方案。
MiniGPT4-video - 提升视频理解的创新多模态语言模型
GoldfishMiniGPT4-Video视频理解长视频多模态Github开源项目
MiniGPT4-Video项目采用交错视觉-文本标记技术,大幅提升了多模态大语言模型的视频理解能力。该模型在短视频理解方面表现优异,多项基准测试中均优于现有方法。项目还开发了Goldfish框架,专门应对任意长度视频的处理难题,有效解决了长视频理解中的噪声、冗余和计算挑战。这些创新成果为视频分析和理解领域开辟了新的可能性。
Awesome-LLMs-for-Video-Understanding - 视频理解领域大型语言模型应用综述
视频理解大语言模型多模态指令微调视频分析Github开源项目
该项目汇集了大型语言模型在视频理解领域的最新应用进展,包括视频LLM模型、训练策略、相关任务、数据集、基准测试和评估方法。项目全面概述了LLM如何推动视频理解技术发展,并探讨了其应用前景。这是研究人员和开发者了解视频LLM最新进展的重要资源。
SlowFast - 开源视频理解框架 提供多种先进模型架构
PySlowFast视频理解神经网络模型深度学习计算机视觉Github开源项目
PySlowFast是FAIR开发的开源视频理解代码库,提供高效训练的先进视频分类模型。支持SlowFast、Non-local Neural Networks、X3D和Multiscale Vision Transformers等多种架构。该框架便于快速实现和评估视频研究创新,涵盖分类、检测等任务。PySlowFast兼具高性能和轻量级特点,适用于广泛的视频理解研究。
Video-ChatGPT - 创新视频对话技术开启细致视频理解新纪元
Video-ChatGPT视频理解大型视觉语言模型问答系统多模态Github开源项目
Video-ChatGPT是一个融合大型视觉和语言模型的视频对话系统。该项目构建了10万条视频-指令对数据集,开发了首个视频对话量化评估框架,在视频推理、创意生成、空间和时间理解等任务中表现出色。这一开源项目为视频内容理解和人机交互带来了新的发展方向。
VideoGPT-plus - 双编码器融合提升视频理解能力
VideoGPT+视频理解多模态模型视频对话人工智能Github开源项目
VideoGPT+是一个创新的视频对话模型,通过集成图像和视频编码器,实现了更精细的空间理解和全局时间上下文分析。模型采用自适应池化技术处理双编码器特征,大幅提升了视频基准测试性能。项目同时推出VCG+ 112K数据集和VCGBench-Diverse基准,为视频对话任务提供全面评估。VideoGPT+在空间理解、推理和视频问答等多项任务中表现优异。
OmAgent - 多模态智能代理系统实现复杂视频理解
OmAgent多模态智能代理视频理解大语言模型人工智能Github开源项目
OmAgent是一个多模态智能代理系统,结合多模态大语言模型和算法来完成复杂任务。系统包含轻量级智能代理框架omagent_core和三个核心组件:Video2RAG、DnCLoop和Rewinder Tool。OmAgent突破视频长度限制,实现长视频理解、任务分解和信息检索。这一开源项目为研究和开发多模态应用提供了有力工具。
Qwen2-VL-72B-Instruct-AWQ - 强大多模态AI实现高分辨率图像和长视频深度理解
模型开源项目HuggingfaceQwen2-VL视频理解多模态Github大语言模型视觉理解
Qwen2-VL-72B-Instruct-AWQ是一款先进的多模态AI模型,在图像和视频理解方面表现卓越。这个模型能够处理各种分辨率的图像,理解超过20分钟的长视频,并支持多语言文本识别。通过采用动态分辨率和多模态旋转位置编码等创新技术,该模型在视觉理解基准测试中展现了领先优势。Qwen2-VL作为通用视觉语言模型,可广泛应用于复杂推理和内容创作等多个领域。
Qwen2-VL-7B-Instruct-AWQ - 先进视觉语言模型实现多分辨率图像和长视频理解
模型图像理解Qwen2-VLGithub视频理解视觉语言模型Huggingface开源项目多模态
Qwen2-VL-7B-Instruct-AWQ是一款支持多分辨率图像和长视频理解的视觉语言模型。该模型在视觉理解基准测试中表现出色,具备复杂推理和决策能力,可应用于移动设备和机器人自动操作。模型支持多语言处理,采用动态分辨率和多模态旋转位置嵌入等技术,显著提升了多模态处理能力。
Qwen2-VL-2B-Instruct - 先进的多模态AI模型 支持高分辨率图像和长视频理解
模型图像理解Qwen2-VLGithub视频理解视觉语言模型Huggingface开源项目多模态
Qwen2-VL-2B-Instruct是一个开源的视觉语言模型,支持处理任意分辨率的图像和20分钟以上的视频。该模型在多项视觉理解基准测试中表现出色,具有复杂推理和决策能力。Qwen2-VL-2B-Instruct采用了动态分辨率和多模态旋转位置嵌入技术,提高了多模态处理能力。此外,它还支持多语言理解,可应用于移动设备和机器人操作等领域。
llava-onevision-qwen2-7b-ov - 基于Qwen2的多模态模型 支持图像和视频理解
图像识别多模态Huggingface模型大语言模型视频理解Github开源项目LLaVA-OneVision
LLaVA-OneVision-qwen2-7b-ov是基于Qwen2开发的多模态模型,具备32K标记上下文窗口。该模型通过LLaVA-OneVision数据集训练,可理解图像、多图和视频内容。在AI2D、ChartQA、DocVQA等多个多模态基准测试中表现优异,支持英语和中文,适用于多种多模态应用场景。
llava-onevision-qwen2-0.5b-ov-hf - 推动单图、多图和视频理解的多模态大语言模型
模型多模态语言模型图像理解LLaVA-Onevision计算机视觉Github视频理解Huggingface开源项目
LLaVA-Onevision是基于Qwen2的多模态大语言模型,通过微调GPT生成的多模态指令数据训练而成。作为首个同时推动单图、多图和视频场景性能边界的模型,它展现出强大的视频理解和跨场景能力,实现了从图像到视频的任务迁移。该模型支持多图像和多提示生成,为多样化的视觉理解任务提供了灵活解决方案。
Qwen2-VL-2B-Instruct-GPTQ-Int4 - Qwen2-VL推动多模态与自动化的跨语言视觉处理进步
机器人人工智能视频理解Qwen2-VL开源项目模型多模态Huggingface多语言支持Github
Qwen2-VL具备先进的多模态处理能力,支持高分辨率图像和长时视频理解,适用于视频问答及自动化设备控制。支持包括欧洲语言、日语、韩语、阿拉伯语等多语言文本理解。更新的分辨率处理和位置嵌入技术提升了视觉感知性能。
MiniCPM-V-2_6 - 高性能多模态语言模型 实现单图多图视频智能理解
Huggingface模型图像理解视频理解多模态大语言模型人工智能Github开源项目MiniCPM-V
MiniCPM-V 2.6是一个高效的多模态大语言模型,仅用8B参数就达到了GPT-4V级别的表现。该模型支持单图、多图和视频理解,在多项基准测试中成绩优异。它具备出色的性能、多图和视频理解能力、强大的OCR功能以及多语言支持。MiniCPM-V 2.6还以其高效率和易用性著称,可轻松部署在包括手机和平板电脑在内的各种设备上。
LLaVA-NeXT-Video-7B-hf - 先进多模态AI模型实现视频和图像理解
模型人工智能Github大语言模型LLaVA-NeXT-Video视频理解Huggingface开源项目多模态
LLaVA-NeXT-Video-7B-hf是一个开源多模态AI模型,通过视频和图像数据的混合微调,实现了出色的视频理解能力。该模型支持多视觉输入和多提示生成,在VideoMME基准测试中表现优异。基于Vicuna-7B语言模型,可处理视频问答和图像描述等视觉任务。模型支持4位量化和Flash Attention 2优化,提供灵活高效的使用方式。
llava-onevision-qwen2-7b-ov-hf - 支持单图多图和视频理解的多模态语言模型
多模态Huggingface模型视频理解图像理解人工智能GithubLLaVA-Onevision开源项目
LLaVA-Onevision-qwen2-7b-ov-hf是一个基于Qwen2微调的开源多模态大语言模型。作为首个能在单图、多图和视频场景中同时提升性能的模型,它展现了卓越的跨模态和跨场景迁移学习能力。该模型特别擅长视频理解和跨场景任务,支持多图像和多提示生成,适用于广泛的视觉理解应用。
Qwen2-VL-72B-Instruct - 多模态视觉语言模型实现图像视频理解与交互
模型多模态处理Qwen2-VLGithub图像识别视频理解视觉语言模型Huggingface开源项目
Qwen2-VL-72B-Instruct是一款多模态视觉语言模型,具备处理任意分辨率图像和长达20分钟视频的能力。该模型可执行复杂视觉推理任务,支持多语言,并能作为智能代理操控设备。在多项视觉语言基准测试中,Qwen2-VL-72B-Instruct展现出优异的性能。
Video-LLaVA-7B - 统一图像和视频处理的多模态AI模型
多模态模型Huggingface模型大语言模型视觉语言处理视频理解Github开源项目Video-LLaVA
Video-LLaVA是一种新型多模态AI模型,采用对齐后投影方法学习统一视觉表示。该模型能同时处理图像和视频,具备出色的视觉推理能力。即使没有图像-视频配对数据,Video-LLaVA也能实现图像和视频间的有效交互。通过将统一视觉表示与语言特征空间绑定,该模型在多模态学习和各类视觉任务中展现优异性能。
Qwen2-VL-7B-Instruct-GPTQ-Int4 - 量化模型支持多分辨率视觉理解
模型图像理解Qwen2-VLGithub视频理解视觉语言模型Huggingface开源项目多模态
Qwen2-VL-7B-Instruct-GPTQ-Int4是一款量化视觉语言模型,支持多分辨率图像和20分钟以上视频理解。模型具备复杂推理能力,可应用于移动设备和机器人操作。支持多语言理解,包括欧洲语言、日语和韩语等。采用动态分辨率和多模态旋转位置嵌入技术,在视觉理解基准测试中表现出色。
Qwen2-VL-7B-Instruct-GPTQ-Int8 - Qwen2-VL模型:支持多语言的视觉理解与设备自动化
自动操作Qwen2-VL开源项目模型Github多语言支持Huggingface多模态视频理解
Qwen2-VL模型具备多种新特性,包括对图像及长视频的高性能理解能力,以及多语言文本支持。该模型通过M-ROPE机制进行多模态处理,并在性能基准测试中,展示了其量化优化后的准确性和速度。这一特性让其能广泛用于移动设备和机器人等自动化操作。
Chat-UniVi - 基于动态视觉令牌的图像视频双模态理解模型
图像处理开源项目模型多模态Github视频理解Chat-UniVi大语言模型Huggingface
Chat-UniVi是一个创新的大语言模型框架,采用动态视觉令牌技术实现图像和视频的统一处理。通过混合数据集训练,模型可同时处理图像空间信息和视频时序关系,性能超越了单一模态的专用模型。该项目为多模态AI技术发展提供了新的解决方案。
internlm-xcomposer2d5-7b-4bit - 简化大型语言模型的文本与图像处理新纪元
4位量化模型视频理解文本图像理解HuggingfaceGithub开源项目模型长上下文能力InternLM-XComposer
InternLM-XComposer2.5在文本与图像理解领域展现非凡性能,其应用灵活性媲美GPT-4V,仅靠7B参数即可完成复杂任务。模型通过24K图文上下文训练与96K扩展能力,适用于大量输入输出任务。此外,项目提供了4-bit量化模型来有效降低内存消耗,并支持使用Transformers快速集成,涵盖从视频理解到多图对话的多种应用场景。
timesformer-base-finetuned-k400 - TimeSformer视频分类模型的Kinetics-400数据集实现
TimeSformerKinetics-400开源项目模型Github机器学习视频分类Huggingface视频理解
TimeSformer是一个基于空间-时间注意力机制的视频分类模型,在Kinetics-400数据集上完成微调。该模型支持400类视频标签分类,由Facebook Research开发并在Hugging Face平台开源。模型采用transformer架构处理视频序列,可通过Python接口实现快速部署和预测。