#多模态视觉语言模型

Mini-Gemini:挖掘多模态视觉语言模型的潜力

2 个月前

Cover of Mini-Gemini:挖掘多模态视觉语言模型的潜力

Mini-Gemini是一个强大的多模态AI框架,能够同时进行图像理解、推理和生成。本文详细介绍了Mini-Gemini的架构、训练过程、评估结果以及使用方法,展示了其在多个视觉-语言任务上的卓越表现。

Mini-Gemini 多模态视觉语言模型 AI绘图大语言模型图像理解 Github 开源项目

2 个月前

Cover of Mini-Gemini:挖掘多模态视觉语言模型的潜力

相关项目

Project Cover

Mini-Gemini项目探索多模态视觉语言模型的新可能。该项目支持2B至34B规模的大语言模型,实现图像理解、推理和生成功能。基于LLaVA构建的Mini-Gemini提供完整资源,包括预训练权重、数据集和评估基准。通过双视觉编码器和patch信息挖掘等技术创新,Mini-Gemini实现了文本与图像的深度融合。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号