#多模态

llava-next-interleave-qwen-7b-dpo - 多模态数据研究的开源聊天机器人
Huggingface机器学习多模态研究开源项目模型GithubLLaVA-Next开源
LLaVA-Next Interleave是一款开源的聊天机器人,基于Transformer架构,专为多模态指令数据的研究而优化。主要用于计算机视觉、自然语言处理和人工智能的非商业研究,适合研究人员和爱好者使用。用户需要遵循OpenAI条款和语言模型的许可协议,如Llama社区许可。
OmniGen-v1 - 多模态图像生成模型特点与能力
Github开源项目OmniGen模型多模态模型优化Huggingface图像生成人工智能
OmniGen是一个多模态图像生成模型,支持通过灵活的多模态指令生成多种图像,无需额外插件或操作。安装简便,界面友好,具备从文本生成图像的功能。其设计注重易用性和灵活性,支持用户自定义和微调,满足多样的图像生成需求。
idefics2-8b-chatty-AWQ - 4-bit量化的多模态模型及其应用场景
HuggingFaceM4/idefics2-8b-chattyGithub开源项目量化多模态图像文本Huggingface4-bit AWQ模型
这是一款4-bit AWQ量化的多模态模型,支持多种数据集与任务,帮助提升计算效率和模型性能。
flava-full - FLAVA模型的零样本图像和文本检索能力
模型限制开源项目模型GithubHuggingfaceFLAVA多模态自然语言理解图像分类
FLAVA模型基于70M图像文本对实现多模态统一架构,在计算机视觉和自然语言理解任务中展示了强大性能。该模型不依赖特定模态,与CLIP相似,可执行零样本图像分类与检索,非常适用于AI研究者探索其在多领域预训练中的应用及局限性。
MobileVLM-1.7B - 移动设备优化的高效多模态视觉语言模型
多模态MobileVLM性能评估移动设备模型Github开源项目模型推理Huggingface
MobileVLM-1.7B是一种专为移动设备设计的多模态视觉语言模型,通过多种优化技术实现高效推理,支持跨模态交互。该模型在标准基准测试中表现出色,并经过CLIP方式的预训练。在Qualcomm Snapdragon 888和NVIDIA Jeston Orin设备上的处理速度分别为每秒21.5个和65.3个令牌。
llava-next-interleave-qwen-7b - 研究大规模多模态与聊天机器人的开源自回归语言模型
开源项目模型多模态人工智能开源研究HuggingfaceLLaVA-Next InterleaveGithub
LLaVA-Next Interleave是一个开源的自回归语言模型,通过微调多模态指令数据进行训练。基于Qwen/Qwen1.5-7B-Chat框架,主要用于大规模多模态模型和聊天机器人的研究。目标用户包括计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。项目禁止商业用途,使用者需遵守相关数据集及检查点的原始许可证条款,并确保符合所有适用法律法规。
InternVL2-2B-AWQ - 跨多语言多图像任务的高效视觉语言模型
开源项目图像文本API接口模型多模态HuggingfaceInternVL2-2B模型量化Github
InternVL2-2B-AWQ以AWQ算法实现4bit权重量化,模型推理速度较FP16提升至2.4倍。lmdeploy兼容众多NVIDIA GPU进行W4A16推理,提升离线批量推理效率。同时,该项目提供RESTful API服务并兼容OpenAI接口,快速部署和应用于视觉-语言任务。此多语言兼容的模型不仅提高推理效率,还具备灵活的服务特性。
llava-v1.6-34b - 大规模多模态模型的开源项目介绍
自然语言处理计算机视觉HuggingfaceGithubLLaVA多模态人工智能开源项目模型
模型在大规模多模态模型和聊天机器人领域的研究中有重要应用,采用多样化的数据集提升不同任务表现,适合计算机视觉、自然语言处理及人工智能的研究者使用。