#多模态大语言模型

Woodpecker学习资料汇总 - 多模态大语言模型幻觉校正的开创性工作

2 个月前
Cover of Woodpecker学习资料汇总 - 多模态大语言模型幻觉校正的开创性工作

mPLUG-Owl学习资料汇总 - 强大的多模态大语言模型家族

2 个月前
Cover of mPLUG-Owl学习资料汇总 - 强大的多模态大语言模型家族

InternLM-XComposer学习资源汇总 - 先进的视觉语言大模型

2 个月前
Cover of InternLM-XComposer学习资源汇总 - 先进的视觉语言大模型

RLAIF-V: 开源AI反馈助力多模态大语言模型实现超GPT-4V可信度

3 个月前
Cover of RLAIF-V: 开源AI反馈助力多模态大语言模型实现超GPT-4V可信度

多模态大语言模型在自动驾驶领域的应用与发展

3 个月前
Cover of 多模态大语言模型在自动驾驶领域的应用与发展

Q-Bench:多模态大语言模型在低层视觉任务上的基准测试

3 个月前
Cover of Q-Bench:多模态大语言模型在低层视觉任务上的基准测试

Mustango: 革新性的可控文本到音乐生成系统

3 个月前
Cover of Mustango: 革新性的可控文本到音乐生成系统

Video-MME:多模态大语言模型视频分析的首个全面评估基准

3 个月前
Cover of Video-MME:多模态大语言模型视频分析的首个全面评估基准

Awesome Multimodal Large Language Models: 一站式多模态大语言模型资源库

3 个月前
Cover of Awesome Multimodal Large Language Models: 一站式多模态大语言模型资源库

LLaVAR: 增强视觉指令调优以实现文本丰富图像理解

3 个月前
Cover of LLaVAR: 增强视觉指令调优以实现文本丰富图像理解
相关项目
Project Cover

mPLUG-Owl

mPLUG-Owl系列模型通过模块化强化其多模具集成,提升大型语言模型的功能。mPLUG-Owl2在CVPR 2024获得突出展示,而最新的mPLUG-Owl2.1则针对中文模式进行了优化,已在HuggingFace平台推出。

Project Cover

Woodpecker

Woodpecker是一种创新方法,专门用于校正多模态大语言模型中的幻觉现象。与依赖重训练数据的传统方法不同,Woodpecker通过关键概念提取、问题制定、视觉知识验证、视觉声明生成和幻觉校正五个阶段实现训练无关的校正。这种方法适应性广泛,可解释性强,并在POPE基准测试中显著提高模型准确性。用户可以通过在线演示平台体验Woodpecker的功能。更多信息请参考我们的arXiv论文或在线Demo。

Project Cover

Groma

Groma是一款多模态大语言模型,具有出色的区域理解和视觉定位功能,能够处理用户定义的区域输入并生成基于视觉内容的长文本回答。Groma采用独特的视觉标记和外部模块进行定位,在多模态引用表达理解基准方面表现优秀,并提供详细的安装、数据准备和训练指南,方便用户进行自定义训练。

Project Cover

SEED-Bench

SEED-Bench是一个全面评估多模态大语言模型的基准测试。它包含28K个多项选择题,涵盖34个评估维度,包括文本和图像生成能力。该项目提供SEED-Bench-H、SEED-Bench-2-Plus等多个版本,分别针对不同评估方面。SEED-Bench为研究人员提供了一个客观比较多模态大语言模型性能的工具。

Project Cover

mPLUG-DocOwl

mPLUG-DocOwl是阿里巴巴集团开发的多模态大语言模型家族,致力于无OCR文档理解。该项目包含DocOwl1.5、TinyChart和PaperOwl等子项目,覆盖文档分析、图表理解和科学图表分析领域。mPLUG-DocOwl在多项基准测试中展现出卓越性能,推动文档智能处理技术进步。

Project Cover

Awesome-Multimodal-Large-Language-Models

该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果,包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向,提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准,为研究人员提供全面参考。

Project Cover

ml-ferret

Ferret是一个端到端多模态大语言模型,支持任意形式的指代并能在响应中定位内容。通过混合区域表示和空间感知视觉采样器,实现了细粒度和开放词汇的指代与定位。项目提供GRIT数据集和Ferret-Bench评估基准,为多模态模型研究提供重要资源。

Project Cover

VITA

VITA是一款开源全模态语言模型,实现了视频、图像、文本和音频的综合处理。其特点包括全模态理解、无唤醒交互和音频中断交互,显著提高了用户体验。通过创新的状态令牌和双工方案,VITA提升了多模态交互体验。在多项基准测试中,VITA展现出优秀性能,为多模态AI研究和应用开辟了新途径,有望推动相关技术的发展。

Project Cover

InternLM-XComposer

InternLM-XComposer-2.5是一款高级多模态视觉语言模型,能处理高达96K的复杂图文背景。该模型优秀适用于超高清图像分析、多轮对话生成、网页创建等任务,并通过特殊算法优化输出质量,在多个基准测试中表现卓越。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号