#视觉语言模型

LLaVA-NeXT: 开放式大型多模态模型的新突破

2024年09月05日
Cover of LLaVA-NeXT: 开放式大型多模态模型的新突破

MiniGPT-4: 增强视觉语言理解的先进大型语言模型

2024年09月05日
Cover of MiniGPT-4: 增强视觉语言理解的先进大型语言模型

VILA: 多图像视觉语言模型的突破性进展

2024年09月05日
Cover of VILA: 多图像视觉语言模型的突破性进展

CLIP-ReID: 利用视觉-语言模型实现无具体文本标签的图像重识别

2024年09月05日
Cover of CLIP-ReID: 利用视觉-语言模型实现无具体文本标签的图像重识别

Florence-2模型微调:探索视觉语言模型的新应用

2024年09月05日
Cover of Florence-2模型微调:探索视觉语言模型的新应用

Bunny:一个轻量级但功能强大的多模态模型家族

2024年09月05日
Cover of Bunny:一个轻量级但功能强大的多模态模型家族

Cambrian: 探索多模态大语言模型的开源先锋

2024年09月05日
Cover of Cambrian: 探索多模态大语言模型的开源先锋

LLaMA-VID:突破性的长视频理解模型

2024年09月04日
Cover of LLaMA-VID:突破性的长视频理解模型

gRefCOCO:推动通用指代表达理解的前沿数据集

2024年09月04日
Cover of gRefCOCO:推动通用指代表达理解的前沿数据集

DeepSeek-VL: 引领真实世界视觉语言理解的开源模型

2024年09月04日
Cover of DeepSeek-VL: 引领真实世界视觉语言理解的开源模型
相关项目
Project Cover

SEED

SEED是一个创新的多模态AI框架,通过视觉分词器和去分词器,赋予大语言模型视觉理解和生成能力。该系统支持多模态理解与生成,展现出多轮上下文多模态生成等组合能力。基于SEED开发的SEED-LLaMA在广泛的多模态任务中表现优异,为AI领域开辟了新的研究方向。

Project Cover

cambrian

Cambrian-1是一个开源的视觉为中心的多模态AI模型项目。采用两阶段训练方法,在8B、13B和34B参数规模上达到了与闭源模型相当的性能。项目发布了Cambrian-10M指令微调数据集和CV-Bench基准测试集,为研究提供重要资源。Cambrian-1使用较少的视觉token,在多个视觉语言任务中表现出色,促进了开放式多模态AI的进步。

Project Cover

florence2-finetuning

本项目展示了Florence-2模型的微调方法。Florence-2是一个基础视觉语言模型,特点是模型小且性能强。项目包含模型安装、数据准备和代码修改说明,并提供单GPU及分布式训练脚本。这些工具可用于Florence-2的特定任务训练,适用于各种计算机视觉和视觉语言任务。

Project Cover

VILA

VILA是一种新型视觉语言模型,采用大规模交错图像-文本数据预训练,增强了视频和多图像理解能力。通过AWQ 4位量化和TinyChat框架,VILA可部署到边缘设备。该模型在视频推理、上下文学习和视觉思维链等方面表现出色,并在多项基准测试中获得了优异成绩。项目完全开源,包括训练和评估代码、数据集以及模型检查点。

Project Cover

CLIP-ReID

CLIP-ReID提出了一种无需具体文本标签的图像重识别新方法。该方法基于CLIP视觉-语言模型,结合CNN和ViT架构,并运用SIE和OLP等技术进行优化。在MSMT17等多个基准数据集上,CLIP-ReID展现了领先的性能,为图像重识别领域开辟了新的研究方向。

Project Cover

Awesome-Multimodal-Large-Language-Models

该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果,包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向,提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准,为研究人员提供全面参考。

Project Cover

Video-LLaVA

Video-LLaVA项目提出了一种新的对齐方法,实现图像和视频统一视觉表示的学习。该模型在无图像-视频配对数据的情况下,展现出色的跨模态交互能力,同时提升图像和视频理解性能。研究显示多模态学习的互补性明显改善了模型在各类视觉任务上的表现,为视觉-语言模型开发提供新思路。

Project Cover

DeepSeek-VL

DeepSeek-VL是一个开源视觉语言模型,为实际应用场景而设计。它能处理逻辑图表、网页、公式、科学文献、自然图像等,并在复杂场景中展现智能。模型提供1.3B和7B两种参数规模,支持基础和对话应用,可用于学术研究和商业用途。DeepSeek-VL采用MIT许可证,为研究人员和开发者提供了强大的视觉语言处理工具。

Project Cover

daclip-uir

DA-CLIP模型通过视觉语言控制实现通用图像修复。用户可以通过多种方式使用预训练模型,如Gradio应用测试图像,或通过提供的代码示例和数据准备步骤进行训练和评估。该项目提供解决多种真实世界图像退化问题的方法,并提供多种预训练模型供下载。功能和性能的持续更新显著提升了其在图像修复中的适用性。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号