视觉语言模型工具集合:应用、网站与开源项目一览

h2ovl-mississippi-800m

h2ovl-mississippi-800m

OCR性能JSON提取

紧凑型视觉语言模型,提供出色的文本识别功能

VILA1.5-13b

VILA1.5-13b

VILAGithub

多图像推理与跨设备应用的视觉语言模型

VLM2Vec-Full

VLM2Vec-Full

Github开源项目

视觉语言模型VLM2Vec的多模态嵌入训练方法

CONCH

CONCH

Github模型

病理学视觉语言模型提升多任务性能

falcon-11B-vlm

falcon-11B-vlm

视觉语言模型PyTorch 2.0

11B参数增强型视觉语言模型,提升细节图像理解与文本生成

llava-llama-3-8b-v1_1-gguf

llava-llama-3-8b-v1_1-gguf

开源项目视觉语言模型

基于Llama-3的8B参数多模态模型实现图文交互

Llama-3.2-90B-Vision-Instruct-FP8-dynamic

Llama-3.2-90B-Vision-Instruct-FP8-dynamic

Llama-3.2开源项目

基于Meta-Llama架构的FP8量化多语言视觉对话模型

nanoLLaVA

nanoLLaVA

Github开源项目

轻量级视觉语言模型实现边缘设备高效部署

Llama-3-VILA1.5-8B

Llama-3-VILA1.5-8B

Github图文理解

视觉语言模型支持多图像推理和边缘计算

Qwen-VL-Chat

Qwen-VL-Chat

视觉语言模型Github

多语言视觉对话模型 支持图文交互和物体定位

cogvlm2-llama3-chat-19B

cogvlm2-llama3-chat-19B

模型图像理解

支持8K内容长度和高分辨率图像的开源多模态AI模型

colpali

colpali

模型PaliGemma

基于PaliGemma-3B的多向量文档检索模型

Qwen2-VL-7B-Instruct-GPTQ-Int4

Qwen2-VL-7B-Instruct-GPTQ-Int4

模型图像理解

量化模型支持多分辨率视觉理解

InternVL2-8B

InternVL2-8B

模型开源项目

多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力

MoE-LLaVA-Phi2-2.7B-4e

MoE-LLaVA-Phi2-2.7B-4e

视觉语言模型MoE-LLaVA

MoE-LLaVA模型应用专家混合系统提升视觉语言能力

VILA1.5-3b

VILA1.5-3b

模型图像文本预训练

交错图像文本预训练的视觉语言模型突破

ViT-L-14-CLIPA-datacomp1B

ViT-L-14-CLIPA-datacomp1B

模型开源项目

CLIPA-v2模型实现低成本高性能零样本图像分类

cogvlm-chat-hf

cogvlm-chat-hf

模型开源

开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B

CLIP-ViT-L-14-laion2B-s32B-b82K

CLIP-ViT-L-14-laion2B-s32B-b82K

CLIP模型

CLIP-ViT-L-14模型实现高效零样本图像分类和检索

paligemma-3b-pt-224

paligemma-3b-pt-224

模型Github

基于SigLIP和Gemma的多功能视觉语言模型