#多模态对话
相关项目
wechatgpt
wechatgpt是一个基于OpenAI API的微信机器人项目,支持多模态对话。主要功能包括图片识别回复和AI图片生成。项目采用Docker部署,配置简单。此外还提供自定义触发词和白名单等功能,增强了使用灵活性。
llava-1.5-13b-hf
llava-1.5-13b-hf作为开源多模态模型整合了Llama 2架构,实现图像理解和自然语言对话功能。模型通过transformers库实现多图像处理和多提示生成,并集成4位量化与Flash-Attention 2优化方案提升运行效率。在图像描述、视觉问答等任务中表现出色,体现了视觉语言模型的技术创新。
visualglm-6b
VisualGLM-6B是一个多模态对话模型,支持中文、英文和图像交互。基于ChatGLM-6B,有78亿参数,通过BLIP2-Qformer桥接视觉和语言模型。此模型使用CogView数据集进行预训练,并在长视觉问答数据上微调,以生成符合人类偏好的回答。用户可用Python代码简便调用模型,同时提供命令行、网页示例及模型量化的详细说明。