CogVLM2 & CogVLM2-Video
👋 加入我们的微信 · 💡试用 CogVLM2 在线体验 💡试用 CogVLM2-Video 在线体验
📍在 智谱AI开放平台 体验更大规模的 CogVLM 模型。
最新动态
- 🔥 新闻:
2024/7/12
: 我们已发布 CogVLM2-Video 在线网页演示,欢迎体验。 - 🔥 新闻:
2024/7/8
: 我们发布了 CogVLM2 模型的视频理解版——CogVLM2-Video 版模型。通过提取关键帧,它可以解释连续的图像。该模型能支持长达 1 分钟的视频。详见我们的博客。 - 🔥 新闻:
2024/6/8
:我们发布了 CogVLM2 TGI 权重,该模型可在 TGI 中推理。推理代码请见这里。 - 🔥 新闻:
2024/6/5
:我们发布了 GLM-4V-9B,该模型使用与 CogVLM2 相同的数据和训练配方,但以 GLM-9B 作为语言骨干。我们移除了视觉专家以将模型大小减少到 13B。详情请参见 GLM-4 仓库。 - 🔥 新闻:
2024/5/24
: 我们已发布 Int4 版本模型,推理只需 16GB 的视频内存。您也可以通过传递--quant 4
参数运行即时 int4 版本。 - 🔥 新闻:
2024/5/20
: 我们发布了新一代模型 CogVLM2,该模型基于 llama3-8b,并且在大多数情况下等同于(甚至优于)GPT-4V!欢迎下载!
模型介绍
我们推出了新一代 CogVLM2 系列模型,并基于 Meta-Llama-3-8B-Instruct 开源了两个模型。与上一代 CogVLM 开源模型相比,CogVLM2 系列的开源模型有以下改进:
- 在
TextVQA
、DocVQA
等多项基准测试中有显著提升。 - 支持 8K 文字长度。
- 支持高达 1344 * 1344 的图像分辨率。
- 提供支持 中文和英文 的开源模型版本。
你可以在下表中看到 CogVLM2 系列开源模型的详细信息:
模型名称 | cogvlm2-llama3-chat-19B | cogvlm2-llama3-chinese-chat-19B | cogvlm2-video-llama3-chat | cogvlm2-video-llama3-base |
---|---|---|---|---|
基础模型 | Meta-Llama-3-8B-Instruct | Meta-Llama-3-8B-Instruct | Meta-Llama-3-8B-Instruct | Meta-Llama-3-8B-Instruct |
语言 | 英文 | 中文,英文 | 英文 | 英文 |
任务 | 图像理解,多轮对话模型 | 图像理解,多轮对话模型 | 视频理解, 单轮对话模型 | 视频理解,基础模型,无对话 |
模型链接 | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model | 🤗 Huggingface 🤖 ModelScope | 🤗 Huggingface 🤖 ModelScope |
体验链接 | 📙 官方页面 | 📙 官方页面 🤖 ModelScope | 📙 官方页面 🤖 ModelScope | / |
Int4 模型 | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model | / | / |
文本长度 | 8K | 8K | 2K | 2K |
图像分辨率 | 1344 * 1344 | 1344 * 1344 | 224 * 224 (视频,取前 24 帧) | 224 * 224 (视频,取平均 24 帧) |
基准测试
图像理解
我们的开源模型在许多榜单上相较于上一代 CogVLM 开源模型取得了良好成绩。其卓越的性能可以媲美一些非开源模型,如下表所示:
模型 | 开源 | LLM 大小 | TextVQA | DocVQA | ChartQA | OCRbench | MMMU | MMVet | MMBench |
---|---|---|---|---|---|---|---|---|---|
CogVLM1.1 | ✅ | 7B | 69.7 | - | 68.3 | 590 | 37.3 | 52.0 | 65.8 |
LLaVA-1.5 | ✅ | 13B | 61.3 | - | - | 337 | 37.0 | 35.4 | 67.7 |
Mini-Gemini | ✅ | 34B | 74.1 | - | - | - | 48.0 | 59.3 | 80.6 |
LLaVA-NeXT-LLaMA3 | ✅ | 8B | - | 78.2 | 69.5 | - | 41.7 | - | 72.1 |
LLaVA-NeXT-110B | ✅ | 110B | - | 85.7 | 79.7 | - | 49.1 | - | 80.5 |
InternVL-1.5 | ✅ | 20B | 80.6 | 90.9 | 83.8 | 720 | 46.8 | 55.4 | 82.3 |
QwenVL-Plus | ❌ | - | 78.9 | 91.4 | 78.1 | 726 | 51.4 | 55.7 | 67.0 |
Claude3-Opus | ❌ | - | - | 89.3 | 80.8 | 694 | 59.4 | 51.7 | 63.3 |
Gemini Pro 1.5 | ❌ | - | 73.5 | 86.5 | 81.3 | - | 58.5 | - | - |
GPT-4V | ❌ | - | 78.0 | 88.4 | 78.5 | 656 | 56.8 | 67.7 | 75.0 |
CogVLM2-LLaMA3 | ✅ | 8B | 84.2 | 92.3 | 81.0 | 756 | 44.3 | 60.4 | 80.5 |
CogVLM2-LLaMA3-Chinese | ✅ | 8B | 85.0 | 88.4 | 74.7 | 780 | 42.8 | 60.5 | 78.9 |
所有评测均未使用任何外部 OCR 工具(“仅像素”)。
视频理解
CogVLM2-Video 在多个视频问答任务中达到了最先进的性能。下图展示了 CogVLM2-Video 在 MVBench、 VideoChatGPT-Bench 和零样本视频QA数据集(MSVD-QA,MSRVTT-QA,ActivityNet-QA)中的表现。其中,VCG-* 代表 VideoChatGPTBench,ZS-* 代表零样本视频QA数据集,MV-* 代表 MVBench 中的主要类别。
详细表现
在 VideoChatGPT-Bench 和零样本视频QA数据集上的表现:
模型 | VCG-AVG | VCG-CI | VCG-DO | VCG-CU | VCG-TU | VCG-CO | ZS-AVG |
---|---|---|---|---|---|---|---|
IG-VLM GPT4V | 3.17 | 3.40 | 2.80 | 3.61 | 2.89 | 3.13 | 65.70 |
ST-LLM | 3.15 | 3.23 | 3.05 | 3.74 | 2.93 | 2.81 | 62.90 |
ShareGPT4Video | N/A | N/A | N/A | N/A | N/A | N/A | 46.50 |
VideoGPT+ | 3.28 | 3.27 | 3.18 | 3.74 | 2.83 | 3.39 | 61.20 |
VideoChat2_HD_mistral | 3.10 | 3.40 | 2.91 | 3.72 | 2.65 | 2.84 | 57.70 |
PLLaVA-34B | 3.32 | 3.60 | 3.20 | 3.90 | 2.67 | 3.25 | 68.10 |
CogVLM2-Video | 3.41 | 3.49 | 3.46 | 3.87 | 2.98 | 3.23 | 66.60 |
在 MVBench 数据集上的表现:
模型 | 平均值 | AA | AC | AL | AP | AS | CO | CI | EN | ER | FA | FP | MA | MC | MD | OE | OI | OS | ST | SC | UA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
IG-VLM GPT4V | 43.7 | 72.0 | 39.0 | 40.5 | 63.5 | 55.5 | 52.0 | 11.0 | 31.0 | 59.0 | 46.5 | 47.5 | 22.5 | 12.0 | 12.0 | 18.5 | 59.0 | 29.5 | 83.5 | 45.0 | 73.5 |
ST-LLM | 54.9 | 84.0 | 36.5 | 31.0 | 53.5 | 66.0 | 46.5 | 58.5 | 34.5 | 41.5 | 44.0 | 44.5 | 78.5 | 56.5 | 42.5 | 80.5 | 73.5 | 38.5 | 86.5 | 43.0 | 58.5 |
ShareGPT4Video | 51.2 | 79.5 | 35.5 | 41.5 | 39.5 | 49.5 | 46.5 | 51.5 | 28.5 | 39.0 | 40.0 | 25.5 | 75.0 | 62.5 | 50.5 | 82.5 | 54.5 | 32.5 | 84.5 | 51.0 | 54.5 |
VideoGPT+ | 58.7 | 83.0 | 39.5 | 34.0 | 60.0 | 69.0 | 50.0 | 60.0 | 29.5 | 44.0 | 48.5 | 53.0 | 90.5 | 71.0 | 44.0 | 85.5 | 75.5 | 36.0 | 89.5 | 45.0 | 66.5 |
VideoChat2_HD_mistral | 62.3 | 79.5 | 60.0 | 87.5 | 50.0 | 68.5 | 93.5 | 71.5 | 36.5 | 45.0 | 49.5 | 87.0 | 40.0 | 76.0 | 92.0 | 53.0 | 62.0 | 45.5 | 36.0 | 44.0 | 69.5 |
PLLaVA-34B | 58.1 | 82.0 | 40.5 | 49.5 | 53.0 | 67.5 | 66.5 | 59.0 | 39.5 | 63.5 | 47.0 | 50.0 | 70.0 | 43.0 | 37.5 | 68.5 | 67.5 | 36.5 | 91.0 | 51.5 | 79.0 |
CogVLM2-Video | 62.3 | 85.5 | 41.5 | 31.5 | 65.5 | 79.5 | 58.5 | 77.0 | 28.5 | 42.5 | 54.0 | 57.0 | 91.5 | 73.0 | 48.0 | 91.0 | 78.0 | 36.0 | 91.5 | 47.0 | 68.5 |
项目结构
这个开源仓库将帮助开发者快速入门使用 CogVLM2 开源模型的基本调用方法、微调实例、OpenAI API 格式调用示例等。具体项目结构如下,您可以点击进入相应的教程链接:
basic_demo 文件夹包含:
- CLI 演示,推理 CogVLM2 模型。
- CLI 演示,使用多 GPU 推理 CogVLM2 模型。
- Web 演示,由 chainlit 提供。
- API 服务器,采用 OpenAI 格式。
- 通过
--quant 4
可轻松启用 Int4,内存占用为 16GB。
finetune_demo 文件夹包含:
- peft 框架的高效微调示例。
video_demo 文件夹包含:
- CLI 演示,推理 CogVLM2-Video 模型。
- 通过
--quant 4
可轻松启用 Int4,内存占用为 16GB。 - Restful API 服务器。
- Gradio 演示。
有用链接
除官方推理代码外,您还可以参考以下社区提供的推理解决方案:
许可证
此模型根据 CogVLM2 CogVLM2 许可证 发布。对于使用 Meta Llama 3 构建的模型,请遵守 LLAMA3_LICENSE。
引用
如果您发现我们的工作有帮助,请考虑引用以下论文
@misc{wang2023cogvlm,
title={CogVLM: Visual Expert for Pretrained Language Models},
author={Weihan Wang and Qingsong Lv and Wenmeng Yu and Wenyi Hong and Ji Qi and Yan Wang and Junhui Ji and Zhuoyi Yang and Lei Zhao and Xixuan Song and Jiazheng Xu and Bin Xu and Juanzi Li and Yuxiao Dong and Ming Ding and Jie Tang},
year={2023},
eprint={2311.03079},
archivePrefix={arXiv},
primaryClass={cs.CV}
}