#多模态大语言模型

SLAM-LLM:面向语音、语言、音频和音乐处理的大型语言模型工具包

3 个月前
Cover of SLAM-LLM:面向语音、语言、音频和音乐处理的大型语言模型工具包

RLHF-V: 通过细粒度纠正性人类反馈对齐多模态大语言模型行为

3 个月前
Cover of RLHF-V: 通过细粒度纠正性人类反馈对齐多模态大语言模型行为

OPERA: 缓解多模态大语言模型中的幻觉问题的创新方法

3 个月前
Cover of OPERA: 缓解多模态大语言模型中的幻觉问题的创新方法

PoseGPT: 革新3D人体姿态生成与预测的量化方法

3 个月前
Cover of PoseGPT: 革新3D人体姿态生成与预测的量化方法

RPG-DiffusionMaster: 掌控文本到图像扩散的新范式

3 个月前
Cover of RPG-DiffusionMaster: 掌控文本到图像扩散的新范式

Cobra: 多模态大语言模型的高效推理革新

3 个月前
Cover of Cobra: 多模态大语言模型的高效推理革新

M3D: 多模态大语言模型助力3D医学图像分析的进步

3 个月前
Cover of M3D: 多模态大语言模型助力3D医学图像分析的进步

蜜蜂(Honeybee):自然界的勤劳使者

3 个月前
Cover of 蜜蜂(Honeybee):自然界的勤劳使者

HuatuoGPT-Vision:注入医学视觉知识到大规模多模态语言模型中

3 个月前
Cover of HuatuoGPT-Vision:注入医学视觉知识到大规模多模态语言模型中

MG-LLaVA: 突破视觉理解边界的多粒度视觉指令微调模型

3 个月前
Cover of MG-LLaVA: 突破视觉理解边界的多粒度视觉指令微调模型
相关项目
Project Cover

mPLUG-Owl

mPLUG-Owl系列模型通过模块化强化其多模具集成,提升大型语言模型的功能。mPLUG-Owl2在CVPR 2024获得突出展示,而最新的mPLUG-Owl2.1则针对中文模式进行了优化,已在HuggingFace平台推出。

Project Cover

Woodpecker

Woodpecker是一种创新方法,专门用于校正多模态大语言模型中的幻觉现象。与依赖重训练数据的传统方法不同,Woodpecker通过关键概念提取、问题制定、视觉知识验证、视觉声明生成和幻觉校正五个阶段实现训练无关的校正。这种方法适应性广泛,可解释性强,并在POPE基准测试中显著提高模型准确性。用户可以通过在线演示平台体验Woodpecker的功能。更多信息请参考我们的arXiv论文或在线Demo。

Project Cover

Groma

Groma是一款多模态大语言模型,具有出色的区域理解和视觉定位功能,能够处理用户定义的区域输入并生成基于视觉内容的长文本回答。Groma采用独特的视觉标记和外部模块进行定位,在多模态引用表达理解基准方面表现优秀,并提供详细的安装、数据准备和训练指南,方便用户进行自定义训练。

Project Cover

SEED-Bench

SEED-Bench是一个全面评估多模态大语言模型的基准测试。它包含28K个多项选择题,涵盖34个评估维度,包括文本和图像生成能力。该项目提供SEED-Bench-H、SEED-Bench-2-Plus等多个版本,分别针对不同评估方面。SEED-Bench为研究人员提供了一个客观比较多模态大语言模型性能的工具。

Project Cover

mPLUG-DocOwl

mPLUG-DocOwl是阿里巴巴集团开发的多模态大语言模型家族,致力于无OCR文档理解。该项目包含DocOwl1.5、TinyChart和PaperOwl等子项目,覆盖文档分析、图表理解和科学图表分析领域。mPLUG-DocOwl在多项基准测试中展现出卓越性能,推动文档智能处理技术进步。

Project Cover

Awesome-Multimodal-Large-Language-Models

该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果,包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向,提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准,为研究人员提供全面参考。

Project Cover

ml-ferret

Ferret是一个端到端多模态大语言模型,支持任意形式的指代并能在响应中定位内容。通过混合区域表示和空间感知视觉采样器,实现了细粒度和开放词汇的指代与定位。项目提供GRIT数据集和Ferret-Bench评估基准,为多模态模型研究提供重要资源。

Project Cover

VITA

VITA是一款开源全模态语言模型,实现了视频、图像、文本和音频的综合处理。其特点包括全模态理解、无唤醒交互和音频中断交互,显著提高了用户体验。通过创新的状态令牌和双工方案,VITA提升了多模态交互体验。在多项基准测试中,VITA展现出优秀性能,为多模态AI研究和应用开辟了新途径,有望推动相关技术的发展。

Project Cover

InternLM-XComposer

InternLM-XComposer-2.5是一款高级多模态视觉语言模型,能处理高达96K的复杂图文背景。该模型优秀适用于超高清图像分析、多轮对话生成、网页创建等任务,并通过特殊算法优化输出质量,在多个基准测试中表现卓越。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号