#视觉问答

BLIVA - 处理文本视觉问题的多模态LLM
BLIVA多模态文本富媒体视觉问答机器学习Github开源项目
BLIVA是一款简单有效的多模态大语言模型,专门处理富文本视觉问题。其在多个视觉问答基准中表现出色,并公开了模型权重和训练代码。结合FlanT5和Vicuna版本,BLIVA适用于多种商业用途并提升认知和感知任务性能。演示和安装教程也非常详细。
i-Code - 打造集成可组合的多模态人工智能框架
Project i-Code多模态人工智能基础模型文档智能视觉问答Github开源项目
i-Code是一个致力于多模态人工智能研究的开源项目。它提供了多个版本的多模态基础模型,包括i-Code V1、V2和V3(CoDi),以及i-Code Studio框架。项目还涉及多模态文档智能和基于知识的视觉问答技术。i-Code为AI领域提供了集成视觉、语言和语音的多模态工具,促进了人工智能的跨领域发展。
Monkey - 利用高分辨率图像和优质文本标签增强多模态模型性能
Monkey多模态模型图像分辨率文本标签视觉问答Github开源项目
Monkey是一个开源的多模态大模型项目,通过提高图像分辨率和优化文本标签来改善模型性能。该项目在MMBench、CCBench和MME等基准测试中表现优异。Monkey提供完整的模型定义、训练代码和演示系统,支持离线和在线部署。此外,项目还开源了多级描述生成数据集,并提供了针对多个视觉问答数据集的评估工具,方便研究人员进行实验和改进。
KG-MM-Survey - 知识图谱与多模态学习融合研究综述
知识图谱多模态学习视觉问答知识融合深度学习Github开源项目
本项目汇总了知识图谱与多模态学习融合研究的相关论文,主要包括知识图谱驱动的多模态学习(KG4MM)和多模态知识图谱(MM4KG)两个方向。KG4MM探讨知识图谱对多模态任务的支持,MM4KG研究多模态技术在知识图谱领域的应用。项目覆盖理解推理、分类、生成、检索等多种任务,提供了详细的文献列表和资源。这是一份系统全面的知识图谱与多模态学习交叉领域研究综述。
large-ocr-model.github.io - OCR 技术提升多模态大模型视觉问答性能研究
OCR大型模型多模态视觉问答缩放法则Github开源项目
本项目研究 OCR 技术对多模态大模型性能的影响。实验表明,OCR 能显著提高模型在视觉问答任务中的表现。研究者构建了 REBU-Syn 数据集,验证了 OCR 领域的缩放法则,并开发了高精度 OCR 模型。这项工作为多模态大模型的应用开辟了新方向,揭示了 OCR 在增强模型能力方面的重要价值。
Retrieval-Augmented-Visual-Question-Answering - 细粒度后期交互多模态检索视觉问答系统
FLMR视觉问答多模态检索预训练模型基准测试Github开源项目
这个项目开发了一个基于细粒度后期交互多模态检索的视觉问答系统。系统在OK-VQA等多个基准数据集上实现了先进的检索和问答性能。它采用模块化架构,包含预训练映射网络、FLMR检索器和BLIP2读取器等关键组件。项目提供完整的代码库,支持训练和评估,并发布了预训练模型和处理后的数据集,便于研究人员进行后续研究。
LLaVA-Med - 生物医学视觉语言模型助力图像分析与智能问答
LLaVA-Med多模态生物医学大语言模型视觉问答Github开源项目
LLaVA-Med是一个针对生物医学领域的大规模语言和视觉模型。该模型通过课程学习方法对LLaVA进行了生物医学领域适应,在PathVQA和VQA-RAD等开放式生物医学问答任务中表现优异。LLaVA-Med支持多模态对话和视觉问答,为生物医学视觉语言处理研究提供了有力工具。需要注意的是,此模型仅供研究使用,不适用于临床决策。
ban-vqa - 高性能视觉问答与图像实体定位模型
Bilinear Attention Networks视觉问答深度学习神经网络图像处理Github开源项目
项目实现了Bilinear Attention Networks,应用于视觉问答和图像实体定位。VQA 2.0测试集上性能优异,单模型得分70.35,集成模型达71.84。Flickr30k实体任务中,Recall@1/5/10分别为69.88/84.39/86.40。基于PyTorch构建,包含预训练模型和完整工作流程,便于进行相关研究或实际应用开发。
awesome-multimodal-in-medical-imaging - 医学影像多模态学习应用资源集锦
医学影像多模态学习报告生成视觉问答视觉语言模型Github开源项目
该项目汇集医学影像多模态学习应用资源,涵盖数据集、综述、报告生成、视觉问答和视觉语言模型等。内容包括大语言模型相关论文,并提供最新论文和代码链接。资源库定期更新,收录超过100篇高质量论文,为医学影像多模态研究提供重要参考。
git-base-coco - 应用于多任务的图像文本生成模型
Github模型模型训练开源项目COCO图像识别Huggingface视觉问答GIT
GIT是一种基于Transformer的图像文本生成模型,进行了COCO数据集的微调。其设计提升了在图像和视频描述以及问答上的能力。模型结合了CLIP图像令牌与文本令牌进行训练,能够有效预测下一个文本令牌。GIT被应用于图像和视频的标题生成、视觉问答和图像分类等视觉任务,利用大量图像文本对进行训练,实现了多样化的视觉语言任务,提升了视觉理解和交互的效果。
kosmos-2-patch14-224 - Kosmos-2模型实现视觉语言融合的理解与生成
Huggingface模型图像理解Kosmos-2多模态大语言模型Github开源项目自然语言处理视觉问答
Kosmos-2是一个融合视觉和语言的多模态模型,支持图像描述、视觉问答和指代理解等任务。它能识别图中物体并生成带定位信息的文本,展示了强大的跨模态能力。该模型已在Hugging Face平台开源,方便研究人员进行实验和应用开发。
uform-gen2-qwen-500m - 小型多模态模型实现图像描述和视觉问答
图像生成多模态AIHuggingface模型图像理解UFormGithub开源项目视觉问答
UForm-Gen2-Qwen-500m是一款小型视觉语言模型,专注于图像描述和视觉问答。模型结合了ViT-H/14和Qwen1.5-0.5B-Chat,通过预训练和微调提升性能。支持图像描述、问答和多模态聊天功能,在多项基准测试中表现良好,适用于计算资源有限的场景。
uform-gen2-dpo - 基于偏好优化的视觉语言模型 用于图像描述和视觉问答
多模态模型UForm-Gen2-dpoHuggingface模型深度学习Github开源项目图像描述视觉问答
UForm-Gen2-dpo是一个经过直接偏好优化(DPO)训练的视觉语言模型,专门用于图像描述和视觉问答。该模型结合了CLIP式ViT-H/14视觉编码器和Qwen1.5-0.5B-Chat语言模型,能够生成准确的图像描述、回答图像相关问题,并支持多模态对话。在MME基准测试中,UForm-Gen2-dpo在感知、推理、OCR等多个图像理解任务上展现出优秀性能,为视觉语言处理提供了高效可靠的解决方案。
blip2-flan-t5-xl - 融合视觉和语言的多功能预训练模型用于图像理解和多模态任务
模型Github视觉问答多模态模型BLIP-2开源项目Huggingface自然语言处理图像描述
BLIP-2 Flan T5-xl是一款融合CLIP图像编码器、查询转换器和Flan T5-xl大语言模型的视觉-语言预训练模型。它擅长图像描述、视觉问答和基于图像的对话等多模态任务,在大规模图像-文本数据集上训练后展现出优秀的零样本和少样本学习能力。该模型为视觉理解和多模态应用研究提供了强大工具,但使用时需注意评估其在特定应用场景中的安全性和公平性。
layoutlm-document-qa - LayoutLM文档智能问答模型
模型Github视觉问答开源项目HuggingfaceLayoutLM图像识别自然语言处理文档问答
LayoutLM文档智能问答模型是一个经过SQuAD2.0和DocVQA数据集微调的多模态模型。它能够准确回答发票、合同等各类文档图像中的问题,支持简单的Python代码调用。该模型为文档信息提取和理解提供了高效便捷的解决方案,适用于多种文档处理场景。
MiniCPM-V-2 - 多模态语言模型,支持跨平台高效部署
场景文本理解MiniCPM-V深度学习HuggingfaceGithub开源项目视觉问答多模态模型
MiniCPM-V 2.0是一个多模态大模型,以高效端侧部署和可靠性为特色,支持OCRBench和TextVQA等基准测试。该模型结合RLHF多模态技术,减少幻觉生成,并能处理任意宽高比的高分辨率图像。MiniCPM-V 2.0可在多数GPU和PC上高效运行,拥有中英双语支持,并能够在移动设备上执行,提供多种部署选择。
llava-v1.6-vicuna-13b - 强大的图文多模态AI模型 集成Vicuna-13b实现视觉智能对话
视觉问答开源项目LLaVA模型多模态大型语言模型Huggingface指令跟随Github
LLaVA-v1.6是基于Vicuna-13b微调的开源多模态AI模型,通过大规模图文对和指令数据训练而成。该模型擅长学术视觉问答和通用图像理解,支持自然的图文交互。采用transformer架构,为计算机视觉和自然语言处理研究提供了强大的视觉语言处理工具。
git-large-coco - 高级视觉与语言转换:大规模图像到文本模型
模型训练视觉问答开源项目图像标注GIT模型Huggingface视觉Github
GIT大型模型通过在COCO数据集上微调,实现图像到文本的转换,支持图像和视频字幕生成、视觉问答和图像分类等功能。该模型利用图像和文本令牌的结合,预测下一个文本令牌,并在多种视觉与语言应用场景中表现出色。
llava-v1.6-vicuna-7b - 基于Vicuna的开源多模态视觉语言模型
Github模型开源项目多模态图文理解LLaVAHuggingface视觉问答大语言模型
LLaVA-v1.6-vicuna-7b是一个基于Vicuna-7B开发的开源多模态模型,支持图像和文本的理解与处理。模型训练数据包含558K图文对和158K多模态指令等多样化数据集,通过12个基准测试验证其性能表现,可用于视觉语言研究与应用开发。
blip2-flan-t5-xxl - 整合CLIP和Flan T5的多模态模型实现图像理解与语言生成
图像处理HuggingfaceGithub开源项目视觉问答BLIP-2图像标注模型语言模型
BLIP2-FLAN-T5-XXL是一个集成CLIP图像编码器、查询转换器和Flan T5-xxl语言模型的多模态系统。通过查询转换架构连接图像特征和语言理解,实现图像描述生成、视觉问答和基于图像的对话功能。模型支持CPU/GPU部署,提供float16、int8等多种精度配置选项。目前主要应用于图像理解和自然语言生成的研究领域。
pix2struct-docvqa-base - 基于pix2struct的跨领域视觉问答图像解码模型
Huggingface图像编码器开源项目模型预训练模型Hugging FaceGithubPix2Struct视觉问答
Pix2Struct是一个预训练的图像到文本解码模型,旨在提升文档视觉问答的效率,通过解析网页截图实现多领域视觉语言理解的增强。