视觉问答工具合集 - AI应用、网站与开源项目推荐

git-base-coco

Github模型

应用于多任务的图像文本生成模型

MiniCPM-V-2

场景文本理解MiniCPM-V

多模态语言模型，支持跨平台高效部署

git-large-coco

模型训练视觉问答

高级视觉与语言转换：大规模图像到文本模型

pix2struct-docvqa-base

Huggingface图像编码器

基于pix2struct的跨领域视觉问答图像解码模型

llava-v1.6-vicuna-7b

Github模型

基于Vicuna的开源多模态视觉语言模型

blip2-flan-t5-xxl

图像处理Huggingface

整合CLIP和Flan T5的多模态模型实现图像理解与语言生成

llava-v1.6-vicuna-13b

视觉问答开源项目

强大的图文多模态AI模型集成Vicuna-13b实现视觉智能对话

layoutlm-document-qa

模型Github

LayoutLM文档智能问答模型

blip2-flan-t5-xl

模型Github

融合视觉和语言的多功能预训练模型用于图像理解和多模态任务

uform-gen2-dpo

多模态模型UForm-Gen2-dpo

基于偏好优化的视觉语言模型用于图像描述和视觉问答

uform-gen2-qwen-500m

图像生成多模态AI

小型多模态模型实现图像描述和视觉问答

kosmos-2-patch14-224

Huggingface模型

Kosmos-2模型实现视觉语言融合的理解与生成

blip-vqa-capfilt-large

图像生成Huggingface

跨视觉语言任务的统一预训练框架

vilt-b32-finetuned-vqa

模型Github

ViLT：基于Transformer的无卷积视觉语言问答模型

blip2-opt-6.7b-coco

模型视觉问答

结合图像理解与自然语言处理的多模态AI系统

blip-vqa-base

Huggingface模型

BLIP视觉语言预训练模型实现理解与生成双重任务

moondream1

moondream1模型

轻量级视觉语言模型强大性能与高效结构的完美结合

blip2-opt-2.7b-coco

Huggingface模型

BLIP-2视觉语言模型实现图像描述和视觉问答功能

blip2-opt-2.7b

图像识别Huggingface

集成图像理解与语言生成的视觉语言模型

llava-v1.6-mistral-7b-hf

多模态模型Huggingface

融合Mistral-7B的多模态视觉语言模型

探索AI的无限可能

访问

AI工具导航精选AI信息

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

视觉问答工具合集 - AI应用、网站与开源项目推荐

git-base-coco

MiniCPM-V-2

git-large-coco

pix2struct-docvqa-base

llava-v1.6-vicuna-7b

blip2-flan-t5-xxl

llava-v1.6-vicuna-13b

layoutlm-document-qa

blip2-flan-t5-xl

uform-gen2-dpo

uform-gen2-qwen-500m

kosmos-2-patch14-224

blip-vqa-capfilt-large

vilt-b32-finetuned-vqa

blip2-opt-6.7b-coco

blip-vqa-base

moondream1

blip2-opt-2.7b-coco

blip2-opt-2.7b

llava-v1.6-mistral-7b-hf

探索AI的无限可能

推荐工具精选

豆包MarsCode

豆包

Trae

宣小二

讯飞绘镜

讯飞文书

阿里绘蛙

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号