#视觉上下文

Groma - 多模态大语言模型Groma的视觉定位技术

Groma多模态大语言模型视觉标记视觉上下文区域理解Github开源项目

Groma是一款多模态大语言模型，具有出色的区域理解和视觉定位功能，能够处理用户定义的区域输入并生成基于视觉内容的长文本回答。Groma采用独特的视觉标记和外部模块进行定位，在多模态引用表达理解基准方面表现优秀，并提供详细的安装、数据准备和训练指南，方便用户进行自定义训练。

相关文章

Article Cover

Groma：突破性的多模态大语言模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号