#视频对话

VideoGPT+: 融合图像和视频编码器的先进视频理解技术

2 个月前

VideoGPT+视频理解多模态模型视频对话人工智能 Github 开源项目

2 个月前

MPP-LLaVA: 基于Qwen语言模型的多模态流水线并行系统

3 个月前

MPPQwen-Next 视频对话流水线并行 sft数据多轮对话 Github 开源项目

3 个月前

相关项目

MPP-LLaVA

MPP-Qwen-Next项目基于QwenLM，提供多模态流水线并行系统，支持多轮对话、视频对话和多图对话功能。借助DeepSpeed Pipeline Parallel技术，实现高效的单图、多图及视频推理。项目包含详细的预训练和指令微调数据，适用于多种对话场景，并专为大规模显卡配置进行了优化。

VideoGPT-plus

VideoGPT+是一个创新的视频对话模型，通过集成图像和视频编码器，实现了更精细的空间理解和全局时间上下文分析。模型采用自适应池化技术处理双编码器特征，大幅提升了视频基准测试性能。项目同时推出VCG+ 112K数据集和VCGBench-Diverse基准，为视频对话任务提供全面评估。VideoGPT+在空间理解、推理和视频问答等多项任务中表现优异。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com