#视觉语言任务
VisionLLM - 面向视觉任务的开放式多模态大语言模型
人工智能Github开源项目计算机视觉多模态大语言模型VisionLLM视觉语言任务
VisionLLM 系列是一种多模态大语言模型,专注于视觉相关任务。该模型利用大语言模型作为开放式解码器,支持数百种视觉语言任务,包括视觉理解、感知和生成。VisionLLM v2 进一步提升了模型的通用性,扩展了其在多模态应用场景中的能力,推动了计算机视觉与自然语言处理的融合。
LLaVA-HR - 混合分辨率适应技术助力多模态大模型
Github开源项目大语言模型多模态高分辨率视觉语言任务LLaVA-HR
LLaVA-HR是一个采用混合分辨率适应技术的多模态大语言模型。它支持1536x1536的高分辨率图像输入,提高了细粒度视觉语言任务的性能。该模型在保持与LLaVA-1.5相近训练成本的同时,在多个基准测试中表现出色。LLaVA-HR为研究社区提供了一个新的基线,展示了混合分辨率适应方法在提升多模态模型性能方面的潜力。