#多模态视觉语言模型

Mini-Gemini:挖掘多模态视觉语言模型的潜力

2024年09月05日

Mini-Gemini 多模态视觉语言模型 AI绘图大语言模型图像理解 Github 开源项目

2024年09月05日

相关项目

MGM

Mini-Gemini项目探索多模态视觉语言模型的新可能。该项目支持2B至34B规模的大语言模型,实现图像理解、推理和生成功能。基于LLaVA构建的Mini-Gemini提供完整资源,包括预训练权重、数据集和评估基准。通过双视觉编码器和patch信息挖掘等技术创新,Mini-Gemini实现了文本与图像的深度融合。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com