CogVLM2

CogVLM2 项目介绍

项目背景

CogVLM2 是一项全新的视觉语言模型项目，旨在增强图像和视频理解的能力。它作为 CogVLM 的升级版，结合了新一代 Llama3-8B 模型，提供了更高效的自然语言处理和图像理解。该项目还包含一个专注于视频理解的版本，即 CogVLM2-Video，这种模型能够通过提取关键帧来解析连续的图像信息。

模型介绍

CogVLM2 系列包括多个开源模型，基于 Meta-Llama-3-8B-Instruct 构建，相比之前版本有显著提升：

在 TextVQA、DocVQA 等基准测试中表现出色。
支持高达 8K 的文本内容长度。
支持 1344x1344 的图像分辨率。
提供支持中英文的开源版本。

模型家族

模型名称	语言	任务	文本长度	图像分辨率
cogvlm2-llama3-chat-19B	英文	图像理解、多轮对话	8K	1344x1344
cogvlm2-llama3-chinese-chat	中文、英文	图像理解、多轮对话	8K	1344x1344
cogvlm2-video-llama3-chat	英文	视频理解、单轮对话	2K	224x224 (视频帧取前 24 帧)
cogvlm2-video-llama3-base	英文	视频理解，基础模型无对话	2K	224x224 (视频帧取平均 24 帧)

性能评估

图像理解

CogVLM2 在多个基准测试中取得了优异的成绩，与一些非开源模型相比毫不逊色，尤其在 TextVQA 和 DocVQA 上表现突出。

模型	开源	TextVQA	DocVQA	ChartQA
CogVLM2-LLaMA3	✅	84.2	92.3	81.0
CogVLM2-LLaMA3-Chinese	✅	85.0	88.4	74.7

视频理解

CogVLM2-Video 在视频问答任务中同样表现亮眼，获得了如 MVBench 和 VideoChatGPT-Bench 数据集上的领先表现。

项目结构

该开源项目为开发者提供了快速上手的指南，包括基础调用方法、微调示例、以及类 OpenAI API 的调用例子：

basic_demo：包含 CLI 模型推理演示、多 GPU 推理演示、Web 页面演示、API 服务器等。
finetune_demo：包含 peft 框架的高效微调示例。
video_demo：包含 CogVLM2-Video 模型的 CLI 推理演示、API 服务器、Gradio 演示。

许可证

该模型根据 CogVLM2 LICENSE 许可发布，基于 Meta Llama 3 构建的模型需遵循 LLAMA3_LICENSE。

如何引用

如果您认为我们的工作对您有所帮助，请引用相关论文：

@article{hong2024cogvlm2,
  title={CogVLM2: Visual Language Models for Image and Video Understanding},
  author={Hong, Wenyi and others},
  journal={arXiv preprint arXiv:2408.16500},
  year={2024}
}

@misc{wang2023cogvlm,
  title={CogVLM: Visual Expert for Pretrained Language Models}, 
  author={Weihan Wang and others},
  year={2023},
  eprint={2311.03079},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

总的来说，CogVLM2 项目为图像与视频理解技术的发展提供了卓越的解决方案，并在性能与效率上达到了新的高度。