多模态大语言模型工具集合:实用资源一站式获取

VideoLLaMA2-7B

VideoLLaMA2-7B

模型推理多模态大语言模型

多模态大语言模型在视频时空建模和音频理解上的应用

Mono-InternVL-2B

Mono-InternVL-2B

InternLM2Github

原生多模态大语言模型融合视觉与文本能力

Llama-3.2-90B-Vision

Llama-3.2-90B-Vision

MetaGithub

前沿视觉语言模型助力图像识别和推理

Llama-3.2-11B-Vision-Instruct

Llama-3.2-11B-Vision-Instruct

多模态大语言模型图像识别

Meta推出支持图文交互的语言模型

InternVL2-8B

InternVL2-8B

模型开源项目

多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力

MiniCPM-Llama3-V-2_5

MiniCPM-Llama3-V-2_5

Huggingface模型

手机端多模态大语言模型突破性进展:8B参数达GPT-4V水平

HuatuoGPT-Vision-7B

HuatuoGPT-Vision-7B

模型Github

融合视觉知识的医疗多模态语言模型助力诊断

MiniCPM-V-2_6

MiniCPM-V-2_6

Huggingface模型

高性能多模态语言模型 实现单图多图视频智能理解

kosmos-2-patch14-224

kosmos-2-patch14-224

Huggingface模型

Kosmos-2模型实现视觉语言融合的理解与生成

Llama-3.2-90B-Vision-Instruct

Llama-3.2-90B-Vision-Instruct

模型多模态大语言模型

Meta开发的多模态大语言模型实现图像理解与视觉推理

InternVL2-2B

InternVL2-2B

模型多模态大语言模型

多模态大语言模型支持多语言及多媒体理解

InternVL2-1B

InternVL2-1B

模型Github

多模态大语言模型实现多图像和视频智能理解

InternVL2-Llama3-76B

InternVL2-Llama3-76B

模型Llama3

融合视觉与语言的多模态AI模型

Llama-3.2-11B-Vision-Instruct

Llama-3.2-11B-Vision-Instruct

Llama 3.2-Vision图像识别

Meta开发的多模态语言模型 提供图像理解与文本生成

RLAIF-V

RLAIF-V

RLAIF-V多模态大语言模型

多模态大模型对齐的开源AI反馈框架

Awesome-Multimodal-LLM-Autonomous-Driving

Awesome-Multimodal-LLM-Autonomous-Driving

多模态大语言模型自动驾驶

多模态大语言模型推动自动驾驶技术创新

Q-Bench

Q-Bench

Q-Bench低层视觉

评测多模态大语言模型的低层视觉能力

mustango

mustango

Mustango文本生成音乐

基于文本的智能音乐生成系统

Video-MME

Video-MME

Video-MME多模态大语言模型

全面评估多模态大语言模型视频分析能力的基准

Awesome_Multimodel_LLM

Awesome_Multimodel_LLM

多模态大语言模型指令微调

多模态大语言模型资源集锦及研究动态