多模态大语言模型工具集合：实用资源一站式获取

VideoLLaMA2-7B

模型推理多模态大语言模型

多模态大语言模型在视频时空建模和音频理解上的应用

Mono-InternVL-2B

InternLM2Github

原生多模态大语言模型融合视觉与文本能力

Llama-3.2-90B-Vision

MetaGithub

前沿视觉语言模型助力图像识别和推理

Llama-3.2-11B-Vision-Instruct

多模态大语言模型图像识别

Meta推出支持图文交互的语言模型

InternVL2-8B

模型开源项目

多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力

MiniCPM-Llama3-V-2_5

Huggingface模型

手机端多模态大语言模型突破性进展：8B参数达GPT-4V水平

HuatuoGPT-Vision-7B

模型Github

融合视觉知识的医疗多模态语言模型助力诊断

MiniCPM-V-2_6

Huggingface模型

高性能多模态语言模型实现单图多图视频智能理解

kosmos-2-patch14-224

Huggingface模型

Kosmos-2模型实现视觉语言融合的理解与生成

Llama-3.2-90B-Vision-Instruct

模型多模态大语言模型

Meta开发的多模态大语言模型实现图像理解与视觉推理

InternVL2-2B

模型多模态大语言模型

多模态大语言模型支持多语言及多媒体理解

InternVL2-1B

模型Github

多模态大语言模型实现多图像和视频智能理解

InternVL2-Llama3-76B

模型Llama3

融合视觉与语言的多模态AI模型

Llama-3.2-11B-Vision-Instruct

Llama 3.2-Vision图像识别

Meta开发的多模态语言模型提供图像理解与文本生成

RLAIF-V

RLAIF-V多模态大语言模型

多模态大模型对齐的开源AI反馈框架

Awesome-Multimodal-LLM-Autonomous-Driving

多模态大语言模型自动驾驶

多模态大语言模型推动自动驾驶技术创新

Q-Bench

Q-Bench低层视觉

评测多模态大语言模型的低层视觉能力

mustango

Mustango文本生成音乐

基于文本的智能音乐生成系统

Video-MME

Video-MME多模态大语言模型

全面评估多模态大语言模型视频分析能力的基准

Awesome_Multimodel_LLM

多模态大语言模型指令微调

多模态大语言模型资源集锦及研究动态

探索AI的无限可能

访问

AI工具导航精选AI信息

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

多模态大语言模型工具集合：实用资源一站式获取

VideoLLaMA2-7B

Mono-InternVL-2B

Llama-3.2-90B-Vision

Llama-3.2-11B-Vision-Instruct

InternVL2-8B

MiniCPM-Llama3-V-2_5

HuatuoGPT-Vision-7B

MiniCPM-V-2_6

kosmos-2-patch14-224

Llama-3.2-90B-Vision-Instruct

InternVL2-2B

InternVL2-1B

InternVL2-Llama3-76B

Llama-3.2-11B-Vision-Instruct

RLAIF-V

Awesome-Multimodal-LLM-Autonomous-Driving

Q-Bench

mustango

Video-MME

Awesome_Multimodel_LLM

探索AI的无限可能

推荐工具精选

豆包MarsCode

豆包

Trae

宣小二

讯飞绘镜

讯飞文书

阿里绘蛙

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号