#视觉上下文

Groma：突破性的多模态大语言模型

3 个月前

3 个月前

相关项目

Groma

Groma是一款多模态大语言模型，具有出色的区域理解和视觉定位功能，能够处理用户定义的区域输入并生成基于视觉内容的长文本回答。Groma采用独特的视觉标记和外部模块进行定位，在多模态引用表达理解基准方面表现优秀，并提供详细的安装、数据准备和训练指南，方便用户进行自定义训练。

投诉举报邮箱: service@vectorlightyear.com