紧凑型视觉语言模型,提供出色的文本识别功能
多图像推理与跨设备应用的视觉语言模型
视觉语言模型VLM2Vec的多模态嵌入训练方法
病理学视觉语言模型提升多任务性能
11B参数增强型视觉语言模型,提升细节图像理解与文本生成
基于Llama-3的8B参数多模态模型实现图文交互
基于Meta-Llama架构的FP8量化多语言视觉对话模型
轻量级视觉语言模型实现边缘设备高效部署
视觉语言模型支持多图像推理和边缘计算
多语言视觉对话模型 支持图文交互和物体定位
支持8K内容长度和高分辨率图像的开源多模态AI模型
基于PaliGemma-3B的多向量文档检索模型
量化模型支持多分辨率视觉理解
多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力
MoE-LLaVA模型应用专家混合系统提升视觉语言能力
交错图像文本预训练的视觉语言模型突破
CLIPA-v2模型实现低成本高性能零样本图像分类
开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B
CLIP-ViT-L-14模型实现高效零样本图像分类和检索
基于SigLIP和Gemma的多功能视觉语言模型
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号