#视觉语言模型

ScreenAI：革新UI和信息图表理解的视觉语言模型

2 个月前

ScreenAI是一个专门用于用户界面(UI)和信息图表理解的视觉语言模型，它通过创新的架构和独特的训练方法，在多个相关任务中取得了突破性进展，为人机交互和视觉信息处理领域带来了新的可能性。

ScreenAI 视觉语言模型 UI理解信息图表理解多模态 Github 开源项目

2 个月前

HallusionBench: 挑战大型视觉语言模型的图像-文本推理基准

2 个月前

HallusionBench是一个新的基准测试套件,旨在评估大型视觉语言模型在图像-文本推理任务中的语言幻觉和视觉错觉问题。它通过精心设计的问题来挑战模型的理解能力,为改进视觉语言模型提供了重要见解。

HallusionBench 视觉语言模型 AI评估多模态模型图像理解 Github 开源项目

2 个月前

多模态大语言模型：融合视觉与语言的人工智能新篇章

2 个月前

多模态大语言模型(MLLM)是人工智能领域的前沿研究方向,通过融合文本、图像等多种模态信息,实现更全面的理解和生成能力。本文全面介绍了MLLM的发展现状、代表模型和未来趋势,为读者呈现这一激动人心的技术进展。

多模态大语言模型视觉语言模型人工智能机器学习 Github 开源项目

2 个月前

X-CLIP: 面向视频-文本检索的端到端多粒度对比学习

2 个月前

X-CLIP是一种创新的视频-文本检索模型,通过引入跨粒度对比学习和注意力相似度矩阵,有效提升了检索性能。本文将详细介绍X-CLIP的核心思想、模型架构、训练方法以及在多个基准数据集上的优异表现。

CLIP 对比学习视觉语言模型多模态深度学习 Github 开源项目

2 个月前

EVE: 揭示无编码器视觉语言模型的新时代

2 个月前

EVE是一种革命性的无编码器视觉语言模型,它通过创新的架构设计和高效的训练策略,实现了在没有视觉编码器的情况下处理多模态任务的能力,为视觉语言模型的发展开辟了新的道路。

EVE 视觉语言模型无编码器预训练微调 Github 开源项目

2 个月前

VisualRWKV: 基于RWKV的创新视觉语言模型

2 个月前

VisualRWKV是一个基于RWKV语言模型的创新视觉语言模型,赋予了RWKV处理各种视觉任务的能力。本文将深入介绍VisualRWKV的架构、特点、训练方法以及最新进展。

VisualRWKV 视觉语言模型 RWKV 预训练微调 Github 开源项目

2 个月前

多模态学习在医学影像中的应用:一个全面的综述

2 个月前

本文全面介绍了多模态学习技术在医学影像领域的最新进展和应用,包括医学报告生成、医学视觉问答和医学视觉语言模型等方向,并探讨了未来的发展趋势。

医学影像多模态学习报告生成视觉问答视觉语言模型 Github 开源项目

2 个月前

ViP-LLaVA: 让大型多模态模型理解任意视觉提示

2 个月前

ViP-LLaVA是一种创新的多模态AI模型,能够理解和处理任意形式的视觉提示,为人机交互开辟了新的可能性。

ViP-LLaVA 视觉语言模型多模态模型视觉提示 CVPR2024 Github 开源项目

2 个月前

AnomalyGPT: 利用大型视觉语言模型检测工业异常

2 个月前

AnomalyGPT是一种新颖的基于大型视觉语言模型的工业异常检测方法,可以在无需手动设置阈值的情况下检测工业图像中的异常,并支持多轮对话和少样本学习。

AnomalyGPT 工业异常检测视觉语言模型 ImageBind Vicuna Github 开源项目

2 个月前

Tokenize Anything:一种基于提示的通用视觉语言模型

2 个月前

Tokenize Anything是一个创新的视觉语言模型,能够同时完成图像分割、识别和描述等多项任务。本文将详细介绍该模型的设计思路、技术特点以及应用前景。

TAP AI分割识别视觉语言模型灵活提示多任务处理 Github 开源项目

2 个月前

相关项目

SEED

SEED是一个创新的多模态AI框架，通过视觉分词器和去分词器，赋予大语言模型视觉理解和生成能力。该系统支持多模态理解与生成，展现出多轮上下文多模态生成等组合能力。基于SEED开发的SEED-LLaMA在广泛的多模态任务中表现优异，为AI领域开辟了新的研究方向。

cambrian

Cambrian-1是一个开源的视觉为中心的多模态AI模型项目。采用两阶段训练方法，在8B、13B和34B参数规模上达到了与闭源模型相当的性能。项目发布了Cambrian-10M指令微调数据集和CV-Bench基准测试集，为研究提供重要资源。Cambrian-1使用较少的视觉token，在多个视觉语言任务中表现出色，促进了开放式多模态AI的进步。

florence2-finetuning

本项目展示了Florence-2模型的微调方法。Florence-2是一个基础视觉语言模型，特点是模型小且性能强。项目包含模型安装、数据准备和代码修改说明，并提供单GPU及分布式训练脚本。这些工具可用于Florence-2的特定任务训练，适用于各种计算机视觉和视觉语言任务。

VILA

VILA是一种新型视觉语言模型，采用大规模交错图像-文本数据预训练，增强了视频和多图像理解能力。通过AWQ 4位量化和TinyChat框架，VILA可部署到边缘设备。该模型在视频推理、上下文学习和视觉思维链等方面表现出色，并在多项基准测试中获得了优异成绩。项目完全开源，包括训练和评估代码、数据集以及模型检查点。

CLIP-ReID

CLIP-ReID提出了一种无需具体文本标签的图像重识别新方法。该方法基于CLIP视觉-语言模型,结合CNN和ViT架构,并运用SIE和OLP等技术进行优化。在MSMT17等多个基准数据集上,CLIP-ReID展现了领先的性能,为图像重识别领域开辟了新的研究方向。

Awesome-Multimodal-Large-Language-Models

该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果，包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向，提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准，为研究人员提供全面参考。

Video-LLaVA

Video-LLaVA项目提出了一种新的对齐方法,实现图像和视频统一视觉表示的学习。该模型在无图像-视频配对数据的情况下,展现出色的跨模态交互能力,同时提升图像和视频理解性能。研究显示多模态学习的互补性明显改善了模型在各类视觉任务上的表现,为视觉-语言模型开发提供新思路。

DeepSeek-VL

DeepSeek-VL是一个开源视觉语言模型，为实际应用场景而设计。它能处理逻辑图表、网页、公式、科学文献、自然图像等，并在复杂场景中展现智能。模型提供1.3B和7B两种参数规模，支持基础和对话应用，可用于学术研究和商业用途。DeepSeek-VL采用MIT许可证，为研究人员和开发者提供了强大的视觉语言处理工具。

daclip-uir

DA-CLIP模型通过视觉语言控制实现通用图像修复。用户可以通过多种方式使用预训练模型，如Gradio应用测试图像，或通过提供的代码示例和数据准备步骤进行训练和评估。该项目提供解决多种真实世界图像退化问题的方法，并提供多种预训练模型供下载。功能和性能的持续更新显著提升了其在图像修复中的适用性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com