热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#视觉上下文
Groma:突破性的多模态大语言模型
2 个月前
Groma是一种创新的多模态大语言模型,通过局部化视觉标记化技术实现了卓越的区域理解和视觉定位能力。本文深入探讨Groma的技术原理、应用场景及其在视觉语言任务中的突出表现。
Groma
多模态大语言模型
视觉标记
视觉上下文
区域理解
Github
开源项目
2 个月前
相关项目
Groma
Groma是一款多模态大语言模型,具有出色的区域理解和视觉定位功能,能够处理用户定义的区域输入并生成基于视觉内容的长文本回答。Groma采用独特的视觉标记和外部模块进行定位,在多模态引用表达理解基准方面表现优秀,并提供详细的安装、数据准备和训练指南,方便用户进行自定义训练。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号