#VisionLLaMA

VisionLLaMA - 基于LLaMA的统一视觉模型，为图像生成和理解设立新基准

Github开源项目预训练模型计算机视觉图像生成图像理解VisionLLaMA

VisionLLaMA是一个基于LLaMA架构的统一视觉Transformer模型，专为处理2D图像而设计。该模型提供平面和金字塔两种形式，适用于广泛的视觉任务，包括图像感知和生成。通过各种预训练范式的广泛评估，VisionLLaMA在多项图像生成和理解任务中展现出卓越性能，超越了现有最先进的视觉Transformer模型，为计算机视觉领域提供了新的基准。

相关文章

Article Cover

VisionLLaMA: 统一的LLaMA视觉任务骨干网络

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号