#图像理解

HallusionBench: 挑战大型视觉语言模型的图像-文本推理基准

3 个月前

HallusionBench 视觉语言模型 AI评估多模态模型图像理解 Github 开源项目

3 个月前

VisionLLaMA: 统一的LLaMA视觉任务骨干网络

3 个月前

VisionLLaMA 计算机视觉图像生成图像理解预训练模型 Github 开源项目

3 个月前

Mini-Gemini:挖掘多模态视觉语言模型的潜力

3 个月前

Mini-Gemini 多模态视觉语言模型 AI绘图大语言模型图像理解 Github 开源项目

3 个月前

MiniGPT-4: 增强视觉语言理解的先进大型语言模型

3 个月前

MiniGPT-v2 视觉语言模型多任务学习大型语言模型图像理解 Github 开源项目

3 个月前

Video-LLaVA: 通过对齐和投影学习统一的视觉表示

3 个月前

Video-LLaVA 视觉语言模型多模态视频理解图像理解 Github 开源项目

3 个月前

相关项目

CogVLM

CogVLM和CogAgent是领先的开源视觉语言模型，专注于图像理解和跨模态任务。CogVLM-17B拥有100亿视觉参数和70亿语言参数，并在NoCaps、Flicker30k等十个经典跨模态基准测试上表现出色。CogAgent在CogVLM的基础上改进，增添了GUI图像代理能力，支持1120*1120分辨率的图像理解，并在VQAv2、TextVQA等九个基准测试中表现优秀。该项目提供详细的技术文档、示例代码和Web演示，用户可以方便地进行模型推理和微调。了解更多信息，请访问项目主页。

Video-LLaVA

Video-LLaVA项目提出了一种新的对齐方法,实现图像和视频统一视觉表示的学习。该模型在无图像-视频配对数据的情况下,展现出色的跨模态交互能力,同时提升图像和视频理解性能。研究显示多模态学习的互补性明显改善了模型在各类视觉任务上的表现,为视觉-语言模型开发提供新思路。

MiniGPT-4

MiniGPT-4是一个视觉语言理解项目，整合了Llama 2和Vicuna模型以增强多模态能力。它支持图像描述、视觉问答和多任务学习，能够处理复杂的视觉理解任务。项目的开源性和灵活架构为研究人员和开发者提供了探索视觉语言AI的工具。

MGM

Mini-Gemini项目探索多模态视觉语言模型的新可能。该项目支持2B至34B规模的大语言模型,实现图像理解、推理和生成功能。基于LLaVA构建的Mini-Gemini提供完整资源,包括预训练权重、数据集和评估基准。通过双视觉编码器和patch信息挖掘等技术创新,Mini-Gemini实现了文本与图像的深度融合。

VisionLLaMA

VisionLLaMA是一个基于LLaMA架构的统一视觉Transformer模型，专为处理2D图像而设计。该模型提供平面和金字塔两种形式，适用于广泛的视觉任务，包括图像感知和生成。通过各种预训练范式的广泛评估，VisionLLaMA在多项图像生成和理解任务中展现出卓越性能，超越了现有最先进的视觉Transformer模型，为计算机视觉领域提供了新的基准。

AITag.Photo

AITag.Photo利用AI技术为图片生成详细描述、标签和社交媒体文案。该工具快速分析图片内容，提供精准标签和描述，提升照片管理效率。其图片故事创作功能激发用户创意。适合个人和专业用户，有效提高照片管理和内容创作效率。

HallusionBench

HallusionBench是一个诊断视觉语言模型中语言幻觉和视觉错觉的测试集。通过图像-文本推理任务,它挑战了GPT-4V和LLaVA-1.5等顶级多模态模型。项目提供案例分析,揭示模型局限性,为改进提供见解。HallusionBench设有公开评测基准,欢迎研究人员贡献失败案例,推动多模态AI发展。

layoutlmv2-large-uncased

LayoutLMv2通过整合文本、布局和图像的新预训练任务，增强文档理解能力，广泛应用于FUNSD、CORD等视觉丰富文档项目，提高性能，适合多种下游任务。

CogVLM2

CogVLM2是基于Meta-Llama-3-8B-Instruct的下一代模型系列，在多项基准测试中表现优异，支持中英文内容和高分辨率图像处理。该系列模型适用于图像理解、多轮对话和视频理解，特别适合需要处理长文本和高分辨率图像的场景。CogVLM2系列还支持8K内容长度，并在TextVQA和DocVQA等任务中显著提升表现。体验更先进的CogVLM2和CogVLM2-Video模型，迎接未来视觉智能挑战。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com