#图像文本

MM-Interleaved - 创新交错图文生成模型

MM-Interleaved生成模型多模态图像文本预训练Github开源项目

MM-Interleaved是一种新型交错图文生成模型，采用创新的多模态特征同步器MMFS。它能分析高分辨率图像的多尺度特征，生成精确文本描述和匹配图像。该模型在多模态理解和生成任务中表现出色，可适用于多种应用场景。

llava-v1.6-mistral-7b - LLaVA-v1.6：融合图像与文本理解的开源多模态AI模型

模型HuggingfaceLLaVAGithub图像文本大语言模型指令调优开源项目多模态

LLaVA-v1.6-Mistral-7B是一个基于Mistral-7B-Instruct-v0.2的开源多模态AI模型。这个模型通过大规模多模态指令数据微调，能同时处理图像和文本输入。2023年12月发布的LLaVA-v1.6-Mistral-7B主要应用于多模态模型和AI对话系统研究。该模型在12个评估基准上表现优异，涵盖5个学术视觉问答任务和7个针对指令理解的最新多模态模型基准。

idefics2-8b-chatty-AWQ - 4-bit量化的多模态模型及其应用场景

HuggingFaceM4/idefics2-8b-chattyGithub开源项目量化多模态图像文本Huggingface4-bit AWQ模型

这是一款4-bit AWQ量化的多模态模型，支持多种数据集与任务，帮助提升计算效率和模型性能。

InternVL2-2B-AWQ - 跨多语言多图像任务的高效视觉语言模型

开源项目图像文本API接口模型多模态HuggingfaceInternVL2-2B模型量化Github

InternVL2-2B-AWQ以AWQ算法实现4bit权重量化，模型推理速度较FP16提升至2.4倍。lmdeploy兼容众多NVIDIA GPU进行W4A16推理，提升离线批量推理效率。同时，该项目提供RESTful API服务并兼容OpenAI接口，快速部署和应用于视觉-语言任务。此多语言兼容的模型不仅提高推理效率，还具备灵活的服务特性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号