视觉问答工具合集 - AI应用、网站与开源项目推荐

git-base-coco

git-base-coco

Github模型

应用于多任务的图像文本生成模型

MiniCPM-V-2

MiniCPM-V-2

场景文本理解MiniCPM-V

多模态语言模型,支持跨平台高效部署

git-large-coco

git-large-coco

模型训练视觉问答

高级视觉与语言转换:大规模图像到文本模型

pix2struct-docvqa-base

pix2struct-docvqa-base

Huggingface图像编码器

基于pix2struct的跨领域视觉问答图像解码模型

llava-v1.6-vicuna-7b

llava-v1.6-vicuna-7b

Github模型

基于Vicuna的开源多模态视觉语言模型

blip2-flan-t5-xxl

blip2-flan-t5-xxl

图像处理Huggingface

整合CLIP和Flan T5的多模态模型实现图像理解与语言生成

llava-v1.6-vicuna-13b

llava-v1.6-vicuna-13b

视觉问答开源项目

强大的图文多模态AI模型 集成Vicuna-13b实现视觉智能对话

layoutlm-document-qa

layoutlm-document-qa

模型Github

LayoutLM文档智能问答模型

blip2-flan-t5-xl

blip2-flan-t5-xl

模型Github

融合视觉和语言的多功能预训练模型用于图像理解和多模态任务

uform-gen2-dpo

uform-gen2-dpo

多模态模型UForm-Gen2-dpo

基于偏好优化的视觉语言模型 用于图像描述和视觉问答

uform-gen2-qwen-500m

uform-gen2-qwen-500m

图像生成多模态AI

小型多模态模型实现图像描述和视觉问答

kosmos-2-patch14-224

kosmos-2-patch14-224

Huggingface模型

Kosmos-2模型实现视觉语言融合的理解与生成

blip-vqa-capfilt-large

blip-vqa-capfilt-large

图像生成Huggingface

跨视觉语言任务的统一预训练框架

vilt-b32-finetuned-vqa

vilt-b32-finetuned-vqa

模型Github

ViLT:基于Transformer的无卷积视觉语言问答模型

blip2-opt-6.7b-coco

blip2-opt-6.7b-coco

模型视觉问答

结合图像理解与自然语言处理的多模态AI系统

blip-vqa-base

blip-vqa-base

Huggingface模型

BLIP视觉语言预训练模型实现理解与生成双重任务

moondream1

moondream1

moondream1模型

轻量级视觉语言模型 强大性能与高效结构的完美结合

blip2-opt-2.7b-coco

blip2-opt-2.7b-coco

Huggingface模型

BLIP-2视觉语言模型实现图像描述和视觉问答功能

blip2-opt-2.7b

blip2-opt-2.7b

图像识别Huggingface

集成图像理解与语言生成的视觉语言模型

llava-v1.6-mistral-7b-hf

llava-v1.6-mistral-7b-hf

多模态模型Huggingface

融合Mistral-7B的多模态视觉语言模型