#视频对话

MPP-LLaVA - 基于QwenLM的多模态并行系统，支持多轮对话及视频交流

MPPQwen-Next视频对话流水线并行sft数据多轮对话Github开源项目

MPP-Qwen-Next项目基于QwenLM，提供多模态流水线并行系统，支持多轮对话、视频对话和多图对话功能。借助DeepSpeed Pipeline Parallel技术，实现高效的单图、多图及视频推理。项目包含详细的预训练和指令微调数据，适用于多种对话场景，并专为大规模显卡配置进行了优化。

VideoGPT-plus - 双编码器融合提升视频理解能力

VideoGPT+视频理解多模态模型视频对话人工智能Github开源项目

VideoGPT+是一个创新的视频对话模型，通过集成图像和视频编码器，实现了更精细的空间理解和全局时间上下文分析。模型采用自适应池化技术处理双编码器特征，大幅提升了视频基准测试性能。项目同时推出VCG+ 112K数据集和VCGBench-Diverse基准，为视频对话任务提供全面评估。VideoGPT+在空间理解、推理和视频问答等多项任务中表现优异。

相关文章

Article Cover

MPP-LLaVA: 基于Qwen语言模型的多模态流水线并行系统

Article Cover

VideoGPT+: 融合图像和视频编码器的先进视频理解技术

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号