精选多模态模型:实用AI工具、网站及开源项目大全

ichigo

ichigo

Ichigo实时语音AI

本地实时语音AI

vip-llava-7b

vip-llava-7b

聊天机器人ViP-LLaVA

ViP-LLaVA的多模态对话与视觉指令协同应用

idefics-9b-instruct

idefics-9b-instruct

图像文本生成Hugging Face

多模态生成模型提升图像与文本的交互性

llava-interleave-qwen-0.5b-hf

llava-interleave-qwen-0.5b-hf

机器学习Github

多模态模型中的图像到文本生成的应用与研究

siglip-base-patch16-256-multilingual

siglip-base-patch16-256-multilingual

图像分类Huggingface

基于Sigmoid损失函数的多语言视觉语言模型

llava-interleave-qwen-7b-hf

llava-interleave-qwen-7b-hf

图像识别自然语言处理

领先的多模态AI模型 支持多图像视频和3D输入处理

blip-itm-base-coco

blip-itm-base-coco

图像文本匹配多模态模型

BLIP模型革新视觉语言理解和生成技术

Emu3-Gen

Emu3-Gen

Emu3图像处理

统一模型驱动的AI系统实现图像文本与视频的生成与理解

MGM-7B

MGM-7B

HuggingfaceMGM-7B

基于LLaMA的开源多模态图文理解生成模型

siglip-large-patch16-384

siglip-large-patch16-384

开源项目模型

通过改进的损失函数提升多模态图像和文本的匹配效率

CLIP-ViT-g-14-laion2B-s12B-b42K

CLIP-ViT-g-14-laion2B-s12B-b42K

开源项目模型

用于零样本图像分类的先进研究工具

fuyu-8b

fuyu-8b

Github模型

无需图像编码器的轻量级多模态开源模型

Video-LLaVA-7B-hf

Video-LLaVA-7B-hf

多模态模型语言模型

基于LLM的统一视觉模型实现图像和视频的智能处理

Emu3-VisionTokenizer

Emu3-VisionTokenizer

多模态模型Github

Emu3多模态模型通过单一预测方法实现突破性能

siglip-base-patch16-384

siglip-base-patch16-384

计算机视觉开源项目

改进型CLIP架构的图像文本预训练模型

llama3-llava-next-8b

llama3-llava-next-8b

机器学习人工智能

基于Llama 3的开源多模态视觉语言AI模型

Aria

Aria

开源项目模型

轻量级多模态原生混合专家模型实现高性能AI推理

llava-1.6-mistral-7b-gguf

llava-1.6-mistral-7b-gguf

MistralLLaVA

基于Mistral-7B的LLaVA多模态模型GGUF量化版

idefics2-8b

idefics2-8b

模型图像理解

多模态AI模型实现图文交互

llava-v1.5-7b-llamafile

llava-v1.5-7b-llamafile

模型Github

LLaVA模型实现图像理解与自然语言交互的多模态AI