项目介绍
背景
cogvlm2-llama3-chat-19B-int4
是 THUDM 团队最新发布的 CogVLM2系列模型之一,属于开源项目,由 Meta-Llama-3-8B-Instruct 进行构建。相较于之前版本,该系列开源模型在多个方面进行了显著改进。
主要改进
- 性能提升:在
TextVQA
、DocVQA
等基准测试中取得了显著提升。 - 支持8K内容:模型现在可以处理大规模内容。
- 图像支持更高分辨率:最高支持1344 * 1344的图像分辨率,这在视觉处理方面提供了更高的细节展现。
- 多语言支持:提供支持中英文的开源模型版本。
模型硬件需求
- CogVLM2 Int4 模型需要 16G GPU 内存,并需在运行于 Linux 系统的 Nvidia GPU 上。
性能表现
CogVLM2 在多个基准测试中表现出色,达到了与一些非开源模型相媲美的成绩。以下是部分测试结果:
- TextVQA:CogVLM2-LLaMA3达到了84.2的分数,与开源模型InternVL-1.5的80.6相比有进一步提升。
- DocVQA:在 DocVQA 项目中得分达92.3,超越了所有参与比较的模型。
- OCRbench:在不使用任何外部 OCR 工具的情况下,仅依赖“像素”输入,取得了756的分数。
快速开始
代码示例
以下是一个简单的使用该模型进行聊天互动的示例:
import torch
from PIL import Image
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_PATH = "THUDM/cogvlm2-llama3-chat-19B-int4"
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
TORCH_TYPE = torch.bfloat16 if torch.cuda.is_available() and torch.cuda.get_device_capability()[
0] >= 8 else torch.float16
tokenizer = AutoTokenizer.from_pretrained(
MODEL_PATH,
trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
MODEL_PATH,
torch_dtype=TORCH_TYPE,
trust_remote_code=True,
low_cpu_mem_usage=True,
).eval()
text_only_template = "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {} ASSISTANT:"
while True:
image_path = input("Image path >>>>> ")
if image_path == '':
print('You did not enter image path, the following will be a plain text conversation.')
image = None
text_only_first_query = True
else:
image = Image.open(image_path).convert('RGB')
history = []
while True:
query = input("Human:")
if query == "clear":
break
if image is None:
if text_only_first_query:
query = text_only_template.format(query)
text_only_first_query = False
else:
old_prompt = ''
for _, (old_query, response) in enumerate(history):
old_prompt += old_query + " " + response + "\n"
query = old_prompt + "USER: {} ASSISTANT:".format(query)
if image is None:
input_by_model = model.build_conversation_input_ids(
tokenizer,
query=query,
history=history,
template_version='chat'
)
else:
input_by_model = model.build_conversation_input_ids(
tokenizer,
query=query,
history=history,
images=[image],
template_version='chat'
)
inputs = {
'input_ids': input_by_model['input_ids'].unsqueeze(0).to(DEVICE),
'token_type_ids': input_by_model['token_type_ids'].unsqueeze(0).to(DEVICE),
'attention_mask': input_by_model['attention_mask'].unsqueeze(0).to(DEVICE),
'images': [[input_by_model['images'][0].to(DEVICE).to(TORCH_TYPE)]] if image is not None else None,
}
gen_kwargs = {
"max_new_tokens": 2048,
"pad_token_id": 128002,
}
with torch.no_grad():
outputs = model.generate(**inputs, **gen_kwargs)
outputs = outputs[:, inputs['input_ids'].shape[1]:]
response = tokenizer.decode(outputs[0])
response = response.split("<|end_of_text|>")[0]
print("\nCogVLM2:", response)
history.append((query, response))
授权
该模型在CogVLM2的 LICENSE 下发布。对于基于 Meta Llama 3 构建的模型,还需要遵守LLAMA3_LICENSE。
引用
如果觉得我们的工作对您有帮助,请考虑引用相关论文:
@misc{wang2023cogvlm,
title={CogVLM: Visual Expert for Pretrained Language Models},
author={Weihan Wang and Qingsong Lv and Wenmeng Yu and Wenyi Hong and Ji Qi and Yan Wang and Junhui Ji and Zhuoyi Yang and Lei Zhao and Xixuan Song and Jiazheng Xu and Bin Xu and Juanzi Li and Yuxiao Dong and Ming Ding and Jie Tang},
year={2023},
eprint={2311.03079},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
通过使用 cogvlm2-llama3-chat-19B-int4
模型,团队提供了一种强大的工具,帮助用户在AI对话中实现更丰富的理解和互动。该项目的开源性以及广泛的适应能力,使它在不同的应用场合中均具有很强的通用性和实用性。