Groma
Groma是一款多模态大语言模型,具有出色的区域理解和视觉定位功能,能够处理用户定义的区域输入并生成基于视觉内容的长文本回答。Groma采用独特的视觉标记和外部模块进行定位,在多模态引用表达理解基准方面表现优秀,并提供详细的安装、数据准备和训练指南,方便用户进行自定义训练。