#多模态视觉语言模型

MGM - 多模态视觉语言模型的潜力挖掘与创新

Mini-Gemini多模态视觉语言模型AI绘图大语言模型图像理解Github开源项目

Mini-Gemini项目探索多模态视觉语言模型的新可能。该项目支持2B至34B规模的大语言模型,实现图像理解、推理和生成功能。基于LLaVA构建的Mini-Gemini提供完整资源,包括预训练权重、数据集和评估基准。通过双视觉编码器和patch信息挖掘等技术创新,Mini-Gemini实现了文本与图像的深度融合。

相关文章

Article Cover

Mini-Gemini:挖掘多模态视觉语言模型的潜力

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号