#VisualGLM-6B

VisualGLM-6B - 一个具备处理图像、中文和英文的能力的开源多模态对话语言模型

VisualGLM-6B多模态对话模型开源微调图像描述Github开源项目

VisualGLM-6B是一个开源多模态对话语言模型，具备处理图像、中文和英文的能力。该模型继承自强大的ChatGLM-6B基础，增添了6.2亿参数，整合了先进的BLIP2-Qformer技术，达到了语言和视觉数据的高效融合。模型总参数量为7.8亿，展现在多个核心多模态任务上的卓越效能。针对各种应用场景均进行了优化，支持在消费级显卡上运行，降低了使用门槛，拓展了其在学术研究和实务应用中的潜力。

visualglm-6b - 中英文图像交互的多模态对话模型

语言模型Huggingface多模态对话预训练模型Github图像生成开源项目VisualGLM-6B

VisualGLM-6B是一个多模态对话模型，支持中文、英文和图像交互。基于ChatGLM-6B，有78亿参数，通过BLIP2-Qformer桥接视觉和语言模型。此模型使用CogView数据集进行预训练，并在长视觉问答数据上微调，以生成符合人类偏好的回答。用户可用Python代码简便调用模型，同时提供命令行、网页示例及模型量化的详细说明。

相关文章

Article Cover

VisualGLM-6B: 开源多模态对话语言模型的新突破

Article Cover

VisualGLM-6B 学习资料汇总 - 开源多模态中英双语对话模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号