#图像文本
MM-Interleaved - 创新交错图文生成模型
MM-Interleaved生成模型多模态图像文本预训练Github开源项目
MM-Interleaved是一种新型交错图文生成模型,采用创新的多模态特征同步器MMFS。它能分析高分辨率图像的多尺度特征,生成精确文本描述和匹配图像。该模型在多模态理解和生成任务中表现出色,可适用于多种应用场景。
llava-v1.6-mistral-7b - LLaVA-v1.6:融合图像与文本理解的开源多模态AI模型
模型HuggingfaceLLaVAGithub图像文本大语言模型指令调优开源项目多模态
LLaVA-v1.6-Mistral-7B是一个基于Mistral-7B-Instruct-v0.2的开源多模态AI模型。这个模型通过大规模多模态指令数据微调,能同时处理图像和文本输入。2023年12月发布的LLaVA-v1.6-Mistral-7B主要应用于多模态模型和AI对话系统研究。该模型在12个评估基准上表现优异,涵盖5个学术视觉问答任务和7个针对指令理解的最新多模态模型基准。
idefics2-8b-chatty-AWQ - 4-bit量化的多模态模型及其应用场景
HuggingFaceM4/idefics2-8b-chattyGithub开源项目量化多模态图像文本Huggingface4-bit AWQ模型
这是一款4-bit AWQ量化的多模态模型,支持多种数据集与任务,帮助提升计算效率和模型性能。
InternVL2-2B-AWQ - 跨多语言多图像任务的高效视觉语言模型
开源项目图像文本API接口模型多模态HuggingfaceInternVL2-2B模型量化Github
InternVL2-2B-AWQ以AWQ算法实现4bit权重量化,模型推理速度较FP16提升至2.4倍。lmdeploy兼容众多NVIDIA GPU进行W4A16推理,提升离线批量推理效率。同时,该项目提供RESTful API服务并兼容OpenAI接口,快速部署和应用于视觉-语言任务。此多语言兼容的模型不仅提高推理效率,还具备灵活的服务特性。