#视频处理

Jaffree - Java实现的FFmpeg和FFprobe命令行封装库
JaffreeFFmpegJava视频处理命令行封装Github开源项目
Jaffree是Java实现的FFmpeg和FFprobe命令行封装库,通过java.lang.Process与ffmpeg集成。它支持编程方式的视频处理,提供媒体流检查、获取文件时长、重编码、剪辑缩放等功能。Jaffree还支持通过多种方式进行数据传输,并可实现直播流重新流化和屏幕捕获等高级操作。
Qwen2-VL-7B-Instruct - 多分辨率图像和长视频理解的视觉语言模型
多模态视觉语言模型Huggingface视频处理模型Qwen2-VL图像理解Github开源项目
Qwen2-VL-7B-Instruct是一个视觉语言模型,支持高分辨率图像和20分钟以上视频的理解。它在多个视觉理解基准测试中表现出色,具备复杂推理和决策能力。该模型可集成到移动设备和机器人中,实现基于视觉环境和文本指令的自动操作。此外,Qwen2-VL-7B-Instruct支持多语言,能理解图像中的多种语言文本。
DepthCrafter - 生成开放世界视频的长序列一致深度估计
视频处理模型DepthCrafter计算机视觉人工智能Github深度估计Huggingface开源项目
DepthCrafter是一个开源深度估计项目,专门为开放世界视频生成时间一致的长序列深度图。该项目无需相机姿态或光流信息,可直接处理复杂场景视频,并保留精细细节。DepthCrafter在计算机视觉和3D重建领域具有潜在应用,为视频深度估计研究开辟新方向。
videomae-base - 基于掩码自编码器的视频自监督预训练模型
VideoMAE开源项目自监督学习Huggingface视觉TransformerGithub视频处理模型预训练模型
VideoMAE是一种基于掩码自编码器的视频自监督预训练模型。该模型在Kinetics-400数据集上经过1600轮预训练,采用Vision Transformer架构处理固定大小的视频图像块。VideoMAE不仅可预测被遮挡的视频片段,还能通过微调应用于下游任务。作为视频理解领域的重要进展,它为视频分类等任务提供了强大的特征提取能力。
llava-onevision-qwen2-72b-ov-sft - 基于Qwen2的多模态AI模型 支持图像和视频交互
多模态模型图像识别Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision
LLaVA-OneVision是基于Qwen2的多模态AI模型,支持图像、多图和视频交互。模型在专用数据集上训练,具有32K tokens上下文窗口,提供0.5B、7B和72B三种规模。支持英语和中文,可处理单图、多图和视频输入。项目开源了代码、在线演示和论文,为AI研究和开发提供了实用工具。
llava-onevision-qwen2-0.5b-ov - 支持多模态输入的视觉语言AI模型
多模态图像处理Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision
LLaVA-OneVision-qwen2-0.5b-ov是基于Qwen2语言模型开发的多模态AI模型。该模型可处理图像、多图和视频输入,支持英语和中文交互。在LLaVA-OneVision数据集上训练后,模型具备32K tokens的上下文窗口,能执行图像问答、视频理解等多种视觉任务。其在多个多模态基准测试中表现优异,展现了强大的视觉语言处理能力。