#视频对话
MPP-LLaVA - 基于QwenLM的多模态并行系统,支持多轮对话及视频交流
MPPQwen-Next视频对话流水线并行sft数据多轮对话Github开源项目
MPP-Qwen-Next项目基于QwenLM,提供多模态流水线并行系统,支持多轮对话、视频对话和多图对话功能。借助DeepSpeed Pipeline Parallel技术,实现高效的单图、多图及视频推理。项目包含详细的预训练和指令微调数据,适用于多种对话场景,并专为大规模显卡配置进行了优化。
VideoGPT-plus - 双编码器融合提升视频理解能力
VideoGPT+视频理解多模态模型视频对话人工智能Github开源项目
VideoGPT+是一个创新的视频对话模型,通过集成图像和视频编码器,实现了更精细的空间理解和全局时间上下文分析。模型采用自适应池化技术处理双编码器特征,大幅提升了视频基准测试性能。项目同时推出VCG+ 112K数据集和VCGBench-Diverse基准,为视频对话任务提供全面评估。VideoGPT+在空间理解、推理和视频问答等多项任务中表现优异。