CogVLM2 项目介绍
项目背景
CogVLM2 是一项全新的视觉语言模型项目,旨在增强图像和视频理解的能力。它作为 CogVLM 的升级版,结合了新一代 Llama3-8B 模型,提供了更高效的自然语言处理和图像理解。该项目还包含一个专注于视频理解的版本,即 CogVLM2-Video,这种模型能够通过提取关键帧来解析连续的图像信息。
最新动态
- 2024 年 8 月 30 日,CogVLM2 论文已在 arXiv 上发表。
- 2024 年 7 月 12 日,发布了 CogVLM2-Video 的在线演示。
- 2024 年 7 月 8 日,CogVLM2-Video 模型发布,支持最长 1 分钟的视频解析。
- 2024 年 6 月 8 日,发布了 CogVLM2 的 TGI 权重模型,支持高效的文本生成推理。
- 2024 年 5 月 24 日,发布了 Int4 版本模型,仅需 16GB 视频内存。
- 2024 年 5 月 20 日,CogVLM2 模型首次亮相。
模型介绍
CogVLM2 系列包括多个开源模型,基于 Meta-Llama-3-8B-Instruct 构建,相比之前版本有显著提升:
- 在 TextVQA、DocVQA 等基准测试中表现出色。
- 支持高达 8K 的文本内容长度。
- 支持 1344x1344 的图像分辨率。
- 提供支持中英文的开源版本。
模型家族
模型名称 | 语言 | 任务 | 文本长度 | 图像分辨率 |
---|---|---|---|---|
cogvlm2-llama3-chat-19B | 英文 | 图像理解、多轮对话 | 8K | 1344x1344 |
cogvlm2-llama3-chinese-chat | 中文、英文 | 图像理解、多轮对话 | 8K | 1344x1344 |
cogvlm2-video-llama3-chat | 英文 | 视频理解、单轮对话 | 2K | 224x224 (视频帧取前 24 帧) |
cogvlm2-video-llama3-base | 英文 | 视频理解,基础模型无对话 | 2K | 224x224 (视频帧取平均 24 帧) |
性能评估
图像理解
CogVLM2 在多个基准测试中取得了优异的成绩,与一些非开源模型相比毫不逊色,尤其在 TextVQA 和 DocVQA 上表现突出。
模型 | 开源 | TextVQA | DocVQA | ChartQA |
---|---|---|---|---|
CogVLM2-LLaMA3 | ✅ | 84.2 | 92.3 | 81.0 |
CogVLM2-LLaMA3-Chinese | ✅ | 85.0 | 88.4 | 74.7 |
视频理解
CogVLM2-Video 在视频问答任务中同样表现亮眼,获得了如 MVBench 和 VideoChatGPT-Bench 数据集上的领先表现。
项目结构
该开源项目为开发者提供了快速上手的指南,包括基础调用方法、微调示例、以及类 OpenAI API 的调用例子:
- basic_demo:包含 CLI 模型推理演示、多 GPU 推理演示、Web 页面演示、API 服务器等。
- finetune_demo:包含 peft 框架的高效微调示例。
- video_demo:包含 CogVLM2-Video 模型的 CLI 推理演示、API 服务器、Gradio 演示。
许可证
该模型根据 CogVLM2 LICENSE 许可发布,基于 Meta Llama 3 构建的模型需遵循 LLAMA3_LICENSE。
如何引用
如果您认为我们的工作对您有所帮助,请引用相关论文:
@article{hong2024cogvlm2,
title={CogVLM2: Visual Language Models for Image and Video Understanding},
author={Hong, Wenyi and others},
journal={arXiv preprint arXiv:2408.16500},
year={2024}
}
@misc{wang2023cogvlm,
title={CogVLM: Visual Expert for Pretrained Language Models},
author={Weihan Wang and others},
year={2023},
eprint={2311.03079},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
总的来说,CogVLM2 项目为图像与视频理解技术的发展提供了卓越的解决方案,并在性能与效率上达到了新的高度。