#多模态大语言模型
InternLM-XComposer - 多模态视觉语言模型实现超高分辨率理解与多场景交互
InternLM-XComposer-2.5多模态大语言模型高分辨率图像理解多回合多图对话网页制作Github开源项目
InternLM-XComposer-2.5是一款高级多模态视觉语言模型,能处理高达96K的复杂图文背景。该模型优秀适用于超高清图像分析、多轮对话生成、网页创建等任务,并通过特殊算法优化输出质量,在多个基准测试中表现卓越。
mPLUG-Owl - 模块化多模态大型语言模型
mPLUG-OwlmPLUG-Owl2多模态大语言模型模块化CVPR 2024Github开源项目
mPLUG-Owl系列模型通过模块化强化其多模具集成,提升大型语言模型的功能。mPLUG-Owl2在CVPR 2024获得突出展示,而最新的mPLUG-Owl2.1则针对中文模式进行了优化,已在HuggingFace平台推出。
Woodpecker - 专门用于校正多模态大语言模型中的幻觉现象的方法
Woodpecker多模态大语言模型幻觉矫正POPE基准mPLUG-OwlGithub开源项目
Woodpecker是一种创新方法,专门用于校正多模态大语言模型中的幻觉现象。与依赖重训练数据的传统方法不同,Woodpecker通过关键概念提取、问题制定、视觉知识验证、视觉声明生成和幻觉校正五个阶段实现训练无关的校正。这种方法适应性广泛,可解释性强,并在POPE基准测试中显著提高模型准确性。用户可以通过在线演示平台体验Woodpecker的功能。更多信息请参考我们的arXiv论文或在线Demo。
Groma - 多模态大语言模型Groma的视觉定位技术
Groma多模态大语言模型视觉标记视觉上下文区域理解Github开源项目
Groma是一款多模态大语言模型,具有出色的区域理解和视觉定位功能,能够处理用户定义的区域输入并生成基于视觉内容的长文本回答。Groma采用独特的视觉标记和外部模块进行定位,在多模态引用表达理解基准方面表现优秀,并提供详细的安装、数据准备和训练指南,方便用户进行自定义训练。
SEED-Bench - 多模态大语言模型评估基准
SEED-Bench多模态大语言模型基准测试评估维度人工智能Github开源项目
SEED-Bench是一个全面评估多模态大语言模型的基准测试。它包含28K个多项选择题,涵盖34个评估维度,包括文本和图像生成能力。该项目提供SEED-Bench-H、SEED-Bench-2-Plus等多个版本,分别针对不同评估方面。SEED-Bench为研究人员提供了一个客观比较多模态大语言模型性能的工具。
mPLUG-DocOwl - 多模态大语言模型实现无OCR文档理解的新突破
DocOwl多模态大语言模型文档理解AI图表分析OCR-freeGithub开源项目
mPLUG-DocOwl是阿里巴巴集团开发的多模态大语言模型家族,致力于无OCR文档理解。该项目包含DocOwl1.5、TinyChart和PaperOwl等子项目,覆盖文档分析、图表理解和科学图表分析领域。mPLUG-DocOwl在多项基准测试中展现出卓越性能,推动文档智能处理技术进步。
Awesome-Multimodal-Large-Language-Models - 多模态大语言模型研究资源与最新进展汇总
多模态大语言模型视觉语言模型指令微调视频理解模型评估Github开源项目
该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果,包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向,提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准,为研究人员提供全面参考。
ml-ferret - 高级多模态语言模型实现精细指代和定位
Ferret多模态大语言模型视觉定位指代理解AI视觉交互Github开源项目
Ferret是一个端到端多模态大语言模型,支持任意形式的指代并能在响应中定位内容。通过混合区域表示和空间感知视觉采样器,实现了细粒度和开放词汇的指代与定位。项目提供GRIT数据集和Ferret-Bench评估基准,为多模态模型研究提供重要资源。
VITA - 开源全模态交互语言模型
VITA多模态大语言模型人工智能自然语言处理语音识别Github开源项目
VITA是一款开源全模态语言模型,实现了视频、图像、文本和音频的综合处理。其特点包括全模态理解、无唤醒交互和音频中断交互,显著提高了用户体验。通过创新的状态令牌和双工方案,VITA提升了多模态交互体验。在多项基准测试中,VITA展现出优秀性能,为多模态AI研究和应用开辟了新途径,有望推动相关技术的发展。
LaVIT - 大语言模型理解生成视觉内容的统一框架
LaVIT多模态大语言模型视觉内容理解视觉内容生成预训练策略Github开源项目
LaVIT项目是一个创新的多模态预训练框架,旨在增强大语言模型处理视觉内容的能力。该项目通过动态离散视觉标记化技术,将图像和视频转换为离散标记序列,使大语言模型能够理解和生成视觉内容。LaVIT支持图像和视频的理解、生成,以及多模态提示生成,为计算机视觉和自然语言处理的融合提供了新的可能性。
MG-LLaVA - 融合多粒度视觉特征的大语言模型
MG-LLaVA多粒度视觉指令调优多模态大语言模型视觉处理性能提升Github开源项目
MG-LLaVA是一种创新的多模态大语言模型,通过整合低分辨率、高分辨率和物体中心特征,显著提升了视觉处理能力。模型引入高分辨率视觉编码器捕捉细节,并利用Conv-Gate网络融合视觉特征。同时集成离线检测器的物体级特征,增强了物体识别能力。仅基于公开多模态数据进行指令微调,MG-LLaVA在多项基准测试中展现出优异的感知表现。
Gemini APK - 多功能AI助手Gemini,智能对话、创作与分析于一体
AI工具GeminiAI聊天机器人多模态大语言模型Google人工智能
Gemini是谷歌开发的新一代AI助手应用,集成了智能对话、复杂问题解答、编程辅助和图像生成等多项功能。这款应用能进行类人对话,提供实时信息,分析PDF文件,并支持Android、iOS和网页多平台使用。作为谷歌最新推出的AI应用,Gemini还可以解决数学难题、生成创意内容,用户通过自然对话即可获取信息。Gemini与谷歌服务深度整合,为用户带来全方位的AI体验,提供全面的智能助手服务。
HuatuoGPT-Vision - 大规模医疗视觉知识赋能多模态语言模型
HuatuoGPT-Vision医学视觉知识多模态大语言模型PubMedVision医学VQA数据集Github开源项目
HuatuoGPT-Vision项目致力于增强多模态语言模型的医疗视觉理解能力。该项目推出了包含130万高质量医疗视觉问答对的PubMedVision数据集,显著提升了模型在医疗领域的多模态表现。研究团队基于此开发了HuatuoGPT-Vision-7B和34B两个版本的医疗多模态语言模型,在多项医疗视觉问答基准测试中均取得了优异成绩。这一项目不仅为医疗人工智能领域提供了宝贵的数据资源和先进模型,还有望推动医疗影像分析和诊断技术的进步。
honeybee - 优化多模态大语言模型性能的局部性增强投影器
Honeybee多模态大语言模型局部性增强投影器计算机视觉深度学习Github开源项目
Honeybee项目通过局部性增强投影器提升多模态大语言模型性能。该项目在MMB、MME、SEED-I等基准测试中表现优异,提供预训练和微调模型检查点。Honeybee支持多种数据集,包含详细的数据准备、训练和评估指南,为多模态AI研究和开发提供开源工具。
M3D - 推动3D医学图像分析的多模态大语言模型
M3D3D医学图像分析多模态大语言模型医学数据集AI医疗Github开源项目
M3D是首个针对3D医学分析的多模态大语言模型系列。项目包含最大规模开源3D医学数据集M3D-Data、多任务能力模型M3D-LaMed和全面评估基准M3D-Bench。M3D在图像-文本检索、报告生成、视觉问答、定位和分割等任务中表现优异,为3D医学图像分析领域提供了新的研究方向。
cobra - 高效推理的多模态大语言模型扩展
Cobra多模态大语言模型Mamba高效推理视觉语言模型Github开源项目
Cobra项目是一个基于Mamba架构的多模态大语言模型,旨在实现高效推理。该模型支持文本和图像输入,提供预训练权重、训练代码和推理脚本。Cobra在处理视觉语言任务时保持高性能,为研究人员和开发者提供了实用的工具。项目包括模型加载、图像处理和文本生成等功能,便于用户快速上手和应用。
RPG-DiffusionMaster - 多模态大语言模型驱动的高质量文图生成框架
RPG文本到图像生成多模态大语言模型扩散模型区域扩散Github开源项目
RPG-DiffusionMaster是一款创新的文本到图像生成框架,结合多模态大语言模型的提示重述和区域规划能力,以及互补的区域扩散技术。该项目支持多种扩散模型架构,兼容GPT-4等专有模型和开源本地模型,实现先进的图像生成和编辑效果。框架具有高度灵活性和广泛适应性,能生成超高分辨率图像,是一个功能强大的AI创作工具。
PoseGPT - 基于对话的3D人体姿态理解和生成模型
ChatPose3D人体姿势多模态大语言模型SMPL人工智能对话Github开源项目
ChatPose是一个用于理解和推理3D人体姿态的多模态大语言模型。它支持用户通过自然语言对话询问人体姿态相关问题,并能从图像和文本描述中推断3D人体姿态。该模型以SMPL格式输出姿态参数,并生成对应的3D人体网格模型。ChatPose为3D人体姿态研究和应用提供了新的探索方向。
VisionLLM - 面向视觉任务的开放式多模态大语言模型
VisionLLM多模态大语言模型视觉语言任务计算机视觉人工智能Github开源项目
VisionLLM 系列是一种多模态大语言模型,专注于视觉相关任务。该模型利用大语言模型作为开放式解码器,支持数百种视觉语言任务,包括视觉理解、感知和生成。VisionLLM v2 进一步提升了模型的通用性,扩展了其在多模态应用场景中的能力,推动了计算机视觉与自然语言处理的融合。
RLAIF-V - 多模态大模型对齐的开源AI反馈框架
RLAIF-V多模态大语言模型人工智能反馈可信性开源Github开源项目
RLAIF-V项目提出了一种新的多模态大模型对齐框架,通过开源AI反馈实现了超越GPT-4V的可信度。该框架利用高质量反馈数据和在线反馈学习算法,有效减少模型幻觉,提高学习效率和性能。项目开源的代码、模型权重和数据集为多模态人工智能研究提供了重要资源。
RLHF-V - 通过细粒度反馈优化多模态大语言模型
RLHF-V多模态大语言模型行为对齐人类反馈幻觉减少Github开源项目
RLHF-V框架通过细粒度的人类纠正反馈来优化多模态大语言模型的行为。该项目收集高效的纠正反馈数据,让标注者修正模型回答中的幻觉片段。实验表明,仅需1小时训练即可将基础模型的幻觉率降低34.8%。RLHF-V在Muffin模型上的验证展示了显著的性能提升,有效提高了模型的可信度。
LLaVAR - 优化视觉指令微调的文本丰富图像理解模型
LLaVAR视觉指令微调文本丰富图像理解多模态大语言模型OCR能力Github开源项目
LLaVAR项目致力于增强大型语言模型对文本丰富图像的理解能力。通过改进视觉指令微调方法,该项目显著提升了模型在OCR相关任务上的表现。LLaVAR开源了模型权重、训练数据,并提供了环境配置、训练脚本和评估方法,为相关研究和开发提供了全面支持。
OPERA - 无需额外训练的多模态大语言模型幻觉缓解技术
OPERA多模态大语言模型幻觉缓解过度信任惩罚回顾分配策略Github开源项目
OPERA是一种新型多模态大语言模型解码方法,通过引入过度信任惩罚和回顾分配策略缓解幻觉问题。该方法无需额外数据或训练,仅在beam search解码时添加惩罚项和回滚机制,即可改善模型知识聚合模式。实验表明,OPERA在多个模型和评估指标上均显著提升性能,展现出良好的有效性和通用性。这为提高多模态大语言模型在实际应用中的准确性提供了一种低成本解决方案。
Awesome_Multimodel_LLM - 多模态大语言模型资源集锦及研究动态
多模态大语言模型指令微调上下文学习思维链视觉推理Github开源项目
本项目汇集了多模态大语言模型(MLLM)相关资源,涵盖数据集、指令微调、上下文学习、思维链等多个方面。内容持续更新,跟踪MLLM领域最新进展。项目还将发布LLM和MLLM最新研究综述。这是研究人员和开发者了解MLLM前沿动态的重要参考。
SLAM-LLM - 专注语音语言音频音乐处理的多模态大模型训练工具
SLAM-LLM多模态大语言模型语音处理音频处理音乐处理Github开源项目
SLAM-LLM是一款开源深度学习工具包,为多模态大语言模型(MLLM)训练而设计。它专注于语音、语言、音频和音乐处理,提供详细训练方案和高性能推理检查点。支持自动语音识别、文本转语音等多种任务,具备易扩展性、混合精度训练和多GPU训练等特点,适合研究人员和开发者使用。
Video-MME - 全面评估多模态大语言模型视频分析能力的基准
Video-MME多模态大语言模型视频分析基准评估人工智能Github开源项目
Video-MME是一个创新的多模态评估基准,用于评估大语言模型的视频分析能力。该项目包含900个视频和2,700个人工标注的问答对,覆盖多个视觉领域和时间跨度。其特点包括视频时长多样性、类型广泛性、数据模态丰富性和高质量标注。Video-MME为研究人员提供了一个全面评估多模态大语言模型视频理解能力的工具。
mustango - 基于文本的智能音乐生成系统
Mustango文本生成音乐多模态大语言模型MusicBench数据集可控音乐生成Github开源项目
Mustango是一个多模态大语言模型,专注于可控音乐生成。该模型结合潜在扩散模型、Flan-T5和音乐特征,能够将文本提示转化为高质量音乐。通过MusicBench数据集训练,Mustango在音乐匹配度、和弦匹配和节奏稳定性等方面表现出色。这一开源项目为音乐创作和研究提供了新的可能性。
Q-Bench - 评测多模态大语言模型的低层视觉能力
Q-Bench低层视觉多模态大语言模型基准测试ICLR2024Github开源项目
Q-Bench是一个评估多模态大语言模型低层视觉能力的基准测试。它通过感知、描述和评估三个领域,使用LLVisionQA和LLDescribe数据集测试模型性能。该项目采用开放式评估框架,支持研究者提交结果或模型。Q-Bench对比了开源和闭源模型的表现,并与人类专家水平进行对照,为深入理解和提升多模态AI的基础视觉处理能力提供了关键洞察。
Awesome-Multimodal-LLM-Autonomous-Driving - 多模态大语言模型推动自动驾驶技术创新
多模态大语言模型自动驾驶计算机视觉人工智能WACVGithub开源项目
该资源库汇集自动驾驶领域多模态大语言模型(MLLM)相关研究,全面介绍MLLM在感知、规划和控制方面的应用。内容涵盖最新模型、数据集和基准,并总结WACV 2024 LLVM-AD研讨会成果。项目探讨了MLLM应用于自动驾驶系统的挑战和机遇,为研究人员和工程师提供了解该前沿领域发展的宝贵参考。
InternVL2-2B - 多模态大语言模型支持多语言及多媒体理解
模型多模态大语言模型计算机视觉人工智能GithubInternVL2Huggingface开源项目自然语言处理
InternVL2-2B是一个开源的多模态大语言模型,参数量为2.2B。该模型在文档理解、图表分析和场景文本识别等任务中表现优异,性能接近商业闭源模型。InternVL2-2B支持8K上下文窗口,可处理长文本、多图像和视频输入,大幅提升了多模态理解能力。作为一款出色的开源模型,InternVL2-2B为多模态人工智能研究和应用提供了新的可能性。
InternVL2-1B - 多模态大语言模型实现多图像和视频智能理解
模型Github开源项目HuggingfaceInternVL2自然语言处理人工智能计算机视觉多模态大语言模型
InternVL2-1B是一款新型多模态大语言模型,结合了InternViT-300M-448px视觉模型和Qwen2-0.5B-Instruct语言模型。该模型在文档理解、图表分析和场景文字识别等任务中表现优异,能有效处理长文本、多图像和视频输入。InternVL2-1B在开源多模态模型中表现突出,部分能力可与商业模型比肩。通过采用8k上下文窗口训练,该模型大幅提升了处理长输入序列的能力。
Llama-3.2-90B-Vision-Instruct - Meta开发的多模态大语言模型实现图像理解与视觉推理
模型多模态大语言模型Github图像识别Llama 3.2-VisionHuggingface开源项目Meta自然语言处理
Llama-3.2-90B-Vision-Instruct是Meta开发的多模态大语言模型,用于图像理解和视觉推理。该模型基于Llama 3.1构建,集成视觉适配器,支持图像和文本输入。在视觉识别、图像推理、描述和问答方面表现优异,超越多数多模态模型。模型具有128K上下文长度,采用60亿(图像,文本)对训练,知识覆盖至2023年12月。
HuatuoGPT-Vision-7B - 融合视觉知识的医疗多模态语言模型助力诊断
模型GithubPubMedVision多模态大语言模型开源项目Huggingface图像识别医疗应用HuatuoGPT-Vision
HuatuoGPT-Vision-7B是基于Qwen2-7B和LLaVA-v1.5架构的多模态医疗语言模型。该模型利用PubMedVision数据集训练,将医学视觉知识融入多模态LLM中,能同时处理文本和图像输入。开源代码可从GitHub获取,便于模型部署和使用。HuatuoGPT-Vision-7B在医疗诊断、图像分析等领域展现出潜力,为医疗应用提供了新的解决方案。
MiniCPM-V-2_6 - 高性能多模态语言模型 实现单图多图视频智能理解
Huggingface模型图像理解视频理解多模态大语言模型人工智能Github开源项目MiniCPM-V
MiniCPM-V 2.6是一个高效的多模态大语言模型,仅用8B参数就达到了GPT-4V级别的表现。该模型支持单图、多图和视频理解,在多项基准测试中成绩优异。它具备出色的性能、多图和视频理解能力、强大的OCR功能以及多语言支持。MiniCPM-V 2.6还以其高效率和易用性著称,可轻松部署在包括手机和平板电脑在内的各种设备上。
kosmos-2-patch14-224 - Kosmos-2模型实现视觉语言融合的理解与生成
Huggingface模型图像理解Kosmos-2多模态大语言模型Github开源项目自然语言处理视觉问答
Kosmos-2是一个融合视觉和语言的多模态模型,支持图像描述、视觉问答和指代理解等任务。它能识别图中物体并生成带定位信息的文本,展示了强大的跨模态能力。该模型已在Hugging Face平台开源,方便研究人员进行实验和应用开发。
InternVL2-8B - 多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力
模型开源项目HuggingfaceInternVL2推理性能指令微调Github多模态大语言模型视觉语言模型
InternVL2-8B是一个基于InternViT-300M-448px和internlm2_5-7b-chat的多模态大语言模型。该模型在文档理解、图表分析和场景文本识别等图像任务中表现优异,同时在视频理解和目标定位方面也展现出强大能力。支持8k上下文窗口,能够处理长文本、多图像和视频输入,在开源多模态模型中具有竞争力。
相关文章