#多模态大语言模型

Woodpecker学习资料汇总 - 多模态大语言模型幻觉校正的开创性工作

2 个月前

Woodpecker 多模态大语言模型幻觉矫正 POPE基准 mPLUG-Owl Github 开源项目

2 个月前

mPLUG-Owl学习资料汇总 - 强大的多模态大语言模型家族

2 个月前

mPLUG-Owl mPLUG-Owl2 多模态大语言模型模块化 CVPR 2024 Github 开源项目

2 个月前

InternLM-XComposer学习资源汇总 - 先进的视觉语言大模型

2 个月前

InternLM-XComposer-2.5 多模态大语言模型高分辨率图像理解多回合多图对话网页制作 Github 开源项目

2 个月前

RLAIF-V: 开源AI反馈助力多模态大语言模型实现超GPT-4V可信度

3 个月前

RLAIF-V 多模态大语言模型人工智能反馈可信性开源 Github 开源项目

3 个月前

多模态大语言模型在自动驾驶领域的应用与发展

3 个月前

多模态大语言模型自动驾驶计算机视觉人工智能 WACV Github 开源项目

3 个月前

Q-Bench：多模态大语言模型在低层视觉任务上的基准测试

3 个月前

Q-Bench 低层视觉多模态大语言模型基准测试 ICLR2024 Github 开源项目

3 个月前

Mustango: 革新性的可控文本到音乐生成系统

3 个月前

Mustango 文本生成音乐多模态大语言模型 MusicBench数据集可控音乐生成 Github 开源项目

3 个月前

Video-MME：多模态大语言模型视频分析的首个全面评估基准

3 个月前

Video-MME 多模态大语言模型视频分析基准评估人工智能 Github 开源项目

3 个月前

Awesome Multimodal Large Language Models: 一站式多模态大语言模型资源库

3 个月前

多模态大语言模型指令微调上下文学习思维链视觉推理 Github 开源项目

3 个月前

LLaVAR: 增强视觉指令调优以实现文本丰富图像理解

3 个月前

LLaVAR 视觉指令微调文本丰富图像理解多模态大语言模型 OCR能力 Github 开源项目

3 个月前

相关项目

mPLUG-Owl

mPLUG-Owl系列模型通过模块化强化其多模具集成，提升大型语言模型的功能。mPLUG-Owl2在CVPR 2024获得突出展示，而最新的mPLUG-Owl2.1则针对中文模式进行了优化，已在HuggingFace平台推出。

Woodpecker

Woodpecker是一种创新方法，专门用于校正多模态大语言模型中的幻觉现象。与依赖重训练数据的传统方法不同，Woodpecker通过关键概念提取、问题制定、视觉知识验证、视觉声明生成和幻觉校正五个阶段实现训练无关的校正。这种方法适应性广泛，可解释性强，并在POPE基准测试中显著提高模型准确性。用户可以通过在线演示平台体验Woodpecker的功能。更多信息请参考我们的arXiv论文或在线Demo。

Groma

Groma是一款多模态大语言模型，具有出色的区域理解和视觉定位功能，能够处理用户定义的区域输入并生成基于视觉内容的长文本回答。Groma采用独特的视觉标记和外部模块进行定位，在多模态引用表达理解基准方面表现优秀，并提供详细的安装、数据准备和训练指南，方便用户进行自定义训练。

SEED-Bench

SEED-Bench是一个全面评估多模态大语言模型的基准测试。它包含28K个多项选择题，涵盖34个评估维度，包括文本和图像生成能力。该项目提供SEED-Bench-H、SEED-Bench-2-Plus等多个版本，分别针对不同评估方面。SEED-Bench为研究人员提供了一个客观比较多模态大语言模型性能的工具。

mPLUG-DocOwl

mPLUG-DocOwl是阿里巴巴集团开发的多模态大语言模型家族，致力于无OCR文档理解。该项目包含DocOwl1.5、TinyChart和PaperOwl等子项目，覆盖文档分析、图表理解和科学图表分析领域。mPLUG-DocOwl在多项基准测试中展现出卓越性能，推动文档智能处理技术进步。

Awesome-Multimodal-Large-Language-Models

该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果，包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向，提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准，为研究人员提供全面参考。

ml-ferret

Ferret是一个端到端多模态大语言模型，支持任意形式的指代并能在响应中定位内容。通过混合区域表示和空间感知视觉采样器，实现了细粒度和开放词汇的指代与定位。项目提供GRIT数据集和Ferret-Bench评估基准，为多模态模型研究提供重要资源。

VITA

VITA是一款开源全模态语言模型，实现了视频、图像、文本和音频的综合处理。其特点包括全模态理解、无唤醒交互和音频中断交互，显著提高了用户体验。通过创新的状态令牌和双工方案，VITA提升了多模态交互体验。在多项基准测试中，VITA展现出优秀性能，为多模态AI研究和应用开辟了新途径，有望推动相关技术的发展。

InternLM-XComposer

InternLM-XComposer-2.5是一款高级多模态视觉语言模型，能处理高达96K的复杂图文背景。该模型优秀适用于超高清图像分析、多轮对话生成、网页创建等任务，并通过特殊算法优化输出质量，在多个基准测试中表现卓越。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com