Logo

#视觉语言模型

ScreenAI:革新UI和信息图表理解的视觉语言模型

2 个月前
Cover of ScreenAI:革新UI和信息图表理解的视觉语言模型

HallusionBench: 挑战大型视觉语言模型的图像-文本推理基准

2 个月前
Cover of HallusionBench: 挑战大型视觉语言模型的图像-文本推理基准

多模态大语言模型:融合视觉与语言的人工智能新篇章

2 个月前
Cover of 多模态大语言模型:融合视觉与语言的人工智能新篇章

X-CLIP: 面向视频-文本检索的端到端多粒度对比学习

2 个月前
Cover of X-CLIP: 面向视频-文本检索的端到端多粒度对比学习

EVE: 揭示无编码器视觉语言模型的新时代

2 个月前
Cover of EVE: 揭示无编码器视觉语言模型的新时代

VisualRWKV: 基于RWKV的创新视觉语言模型

2 个月前
Cover of VisualRWKV: 基于RWKV的创新视觉语言模型

多模态学习在医学影像中的应用:一个全面的综述

2 个月前
Cover of 多模态学习在医学影像中的应用:一个全面的综述

ViP-LLaVA: 让大型多模态模型理解任意视觉提示

2 个月前
Cover of ViP-LLaVA: 让大型多模态模型理解任意视觉提示

AnomalyGPT: 利用大型视觉语言模型检测工业异常

2 个月前
Cover of AnomalyGPT: 利用大型视觉语言模型检测工业异常

Tokenize Anything:一种基于提示的通用视觉语言模型

2 个月前
Cover of Tokenize Anything:一种基于提示的通用视觉语言模型

相关项目

Project Cover
SEED
SEED是一个创新的多模态AI框架,通过视觉分词器和去分词器,赋予大语言模型视觉理解和生成能力。该系统支持多模态理解与生成,展现出多轮上下文多模态生成等组合能力。基于SEED开发的SEED-LLaMA在广泛的多模态任务中表现优异,为AI领域开辟了新的研究方向。
Project Cover
cambrian
Cambrian-1是一个开源的视觉为中心的多模态AI模型项目。采用两阶段训练方法,在8B、13B和34B参数规模上达到了与闭源模型相当的性能。项目发布了Cambrian-10M指令微调数据集和CV-Bench基准测试集,为研究提供重要资源。Cambrian-1使用较少的视觉token,在多个视觉语言任务中表现出色,促进了开放式多模态AI的进步。
Project Cover
florence2-finetuning
本项目展示了Florence-2模型的微调方法。Florence-2是一个基础视觉语言模型,特点是模型小且性能强。项目包含模型安装、数据准备和代码修改说明,并提供单GPU及分布式训练脚本。这些工具可用于Florence-2的特定任务训练,适用于各种计算机视觉和视觉语言任务。
Project Cover
VILA
VILA是一种新型视觉语言模型,采用大规模交错图像-文本数据预训练,增强了视频和多图像理解能力。通过AWQ 4位量化和TinyChat框架,VILA可部署到边缘设备。该模型在视频推理、上下文学习和视觉思维链等方面表现出色,并在多项基准测试中获得了优异成绩。项目完全开源,包括训练和评估代码、数据集以及模型检查点。
Project Cover
CLIP-ReID
CLIP-ReID提出了一种无需具体文本标签的图像重识别新方法。该方法基于CLIP视觉-语言模型,结合CNN和ViT架构,并运用SIE和OLP等技术进行优化。在MSMT17等多个基准数据集上,CLIP-ReID展现了领先的性能,为图像重识别领域开辟了新的研究方向。
Project Cover
Awesome-Multimodal-Large-Language-Models
该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果,包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向,提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准,为研究人员提供全面参考。
Project Cover
Video-LLaVA
Video-LLaVA项目提出了一种新的对齐方法,实现图像和视频统一视觉表示的学习。该模型在无图像-视频配对数据的情况下,展现出色的跨模态交互能力,同时提升图像和视频理解性能。研究显示多模态学习的互补性明显改善了模型在各类视觉任务上的表现,为视觉-语言模型开发提供新思路。
Project Cover
DeepSeek-VL
DeepSeek-VL是一个开源视觉语言模型,为实际应用场景而设计。它能处理逻辑图表、网页、公式、科学文献、自然图像等,并在复杂场景中展现智能。模型提供1.3B和7B两种参数规模,支持基础和对话应用,可用于学术研究和商业用途。DeepSeek-VL采用MIT许可证,为研究人员和开发者提供了强大的视觉语言处理工具。
Project Cover
daclip-uir
DA-CLIP模型通过视觉语言控制实现通用图像修复。用户可以通过多种方式使用预训练模型,如Gradio应用测试图像,或通过提供的代码示例和数据准备步骤进行训练和评估。该项目提供解决多种真实世界图像退化问题的方法,并提供多种预训练模型供下载。功能和性能的持续更新显著提升了其在图像修复中的适用性。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号