热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#视觉上下文
Groma - 多模态大语言模型Groma的视觉定位技术
Groma
多模态大语言模型
视觉标记
视觉上下文
区域理解
Github
开源项目
Groma是一款多模态大语言模型,具有出色的区域理解和视觉定位功能,能够处理用户定义的区域输入并生成基于视觉内容的长文本回答。Groma采用独特的视觉标记和外部模块进行定位,在多模态引用表达理解基准方面表现优秀,并提供详细的安装、数据准备和训练指南,方便用户进行自定义训练。
1
1
相关文章
Groma:突破性的多模态大语言模型
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号