#图文理解
Llama-3-VILA1.5-8B - 视觉语言模型支持多图像推理和边缘计算
Github图文理解开源项目视觉语言模型VILA模型边缘计算Huggingface多模态大模型
Llama-3-VILA1.5-8B是一款基于大规模交错图像-文本数据预训练的视觉语言模型。该模型具备多图像推理、情境学习和视觉思维链等功能,可部署于边缘设备。在12个基准测试中,包括5个学术视觉问答和7个指令跟随测试,Llama-3-VILA1.5-8B展现了优秀性能。这一模型为研究人员和AI爱好者提供了进行大型多模态模型和聊天机器人研究的有力工具。
Llava-v1.5-7B-GGUF - 轻量级多模态图文处理模型 支持多种精度量化
模型量化模型Github开源项目LLaVA大语言模型图文理解LlamaEdgeHuggingface
Llava-v1.5-7B-GGUF是Llava 1.5 7B模型的GGUF量化版本,提供2位至8位多种精度选择,可根据性能和质量需求灵活使用。项目支持通过LlamaEdge快速部署,适用于多模态AI应用场景。该模型具备图像理解和文本生成能力,在保持性能的同时实现了模型体积的压缩。
llava-v1.6-vicuna-7b - 基于Vicuna的开源多模态视觉语言模型
Github模型开源项目多模态图文理解LLaVAHuggingface视觉问答大语言模型
LLaVA-v1.6-vicuna-7b是一个基于Vicuna-7B开发的开源多模态模型,支持图像和文本的理解与处理。模型训练数据包含558K图文对和158K多模态指令等多样化数据集,通过12个基准测试验证其性能表现,可用于视觉语言研究与应用开发。