热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#多模态视觉语言模型
Mini-Gemini:挖掘多模态视觉语言模型的潜力
2 个月前
Mini-Gemini是一个强大的多模态AI框架,能够同时进行图像理解、推理和生成。本文详细介绍了Mini-Gemini的架构、训练过程、评估结果以及使用方法,展示了其在多个视觉-语言任务上的卓越表现。
Mini-Gemini
多模态视觉语言模型
AI绘图
大语言模型
图像理解
Github
开源项目
2 个月前
相关项目
MGM
Mini-Gemini项目探索多模态视觉语言模型的新可能。该项目支持2B至34B规模的大语言模型,实现图像理解、推理和生成功能。基于LLaVA构建的Mini-Gemini提供完整资源,包括预训练权重、数据集和评估基准。通过双视觉编码器和patch信息挖掘等技术创新,Mini-Gemini实现了文本与图像的深度融合。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号