#多模态模型

Emu - 多模态AI模型 图像文本智能生成的新突破
Emu多模态模型生成式人工智能视觉感知自然语言处理Github开源项目
Emu是BAAI开发的先进多模态生成模型系列,包括入选ICLR 2024的Emu1和CVPR 2024的Emu2。这些模型展示了卓越的多模态理解和生成能力,能在复杂环境中无缝生成图像和文本。Emu在图像描述、视觉问答等任务中表现优异,超越了许多现有模型。作为通用基础模型,Emu适用于广泛的应用场景,如智能创作、视觉分析等,代表了AI技术的新发展方向。BAAI开源Emu旨在推动多模态智能研究的进步,为下一代AI技术发展铺平道路。
ViP-LLaVA - 改进大型多模态模型的视觉提示理解能力
ViP-LLaVA视觉语言模型多模态模型视觉提示CVPR2024Github开源项目
ViP-LLaVA项目旨在提升大型多模态模型对任意视觉提示的理解能力。通过在原始图像上叠加视觉提示进行指令微调,该方法使模型能更好地处理多样化的视觉输入。项目还开发了ViP-Bench,这是首个零样本区域级基准,用于评估多模态模型性能。ViP-LLaVA提供完整的训练流程、模型权重和演示,为视觉语言模型研究提供了有力支持。
Open-LLaVA-NeXT - 多模态大语言模型实现视觉语言对齐和指令微调的开源项目
LLaVA-NeXT多模态模型视觉语言训练开源实现AI模型评估Github开源项目
Open-LLaVA-NeXT是一个复现LLaVA-NeXT系列模型的开源项目。它提供开源训练数据和检查点,基于LLaVA代码库进行修改。该项目支持CLIP-L-336视觉编码器以及Vicuna-7B和LLaMA3-8B等语言模型。通过特征对齐和视觉指令微调两个阶段的训练,Open-LLaVA-NeXT实现了多模态能力,在多项评估任务中表现优异。
XrayGLM - 中文胸部X光片智能解读与诊断系统
XrayGLM医学影像人工智能胸部X光多模态模型Github开源项目
XrayGLM是一个用于解读胸部X光片的中文医疗多模态模型,结合图像识别和自然语言处理技术分析X光影像并生成诊断报告。该模型基于MIMIC-CXR和OpenI数据集训练,支持影像诊断和多轮对话交互,为医疗影像诊断提供智能辅助。XrayGLM的开发促进了中文医学多模态模型的研究进展。
HallusionBench - 探索视觉语言模型的幻觉与错觉问题
HallusionBench视觉语言模型AI评估多模态模型图像理解Github开源项目
HallusionBench是一个诊断视觉语言模型中语言幻觉和视觉错觉的测试集。通过图像-文本推理任务,它挑战了GPT-4V和LLaVA-1.5等顶级多模态模型。项目提供案例分析,揭示模型局限性,为改进提供见解。HallusionBench设有公开评测基准,欢迎研究人员贡献失败案例,推动多模态AI发展。
llmdocparser - 基于LLM的智能PDF解析与内容分析工具包
LLMDocParserPDF解析文本分析布局分析多模态模型Github开源项目
LLMDocParser是一款智能PDF解析和内容分析工具包,结合大型语言模型(LLM)技术。该工具采用布局分析模型识别PDF文档中的文本、标题、图表等元素,并通过多模态模型实现智能解析。支持Azure、OpenAI等多种LLM平台,LLMDocParser能高效处理复杂PDF文档,为RAG解决方案提供结构化文本输出,适用于各类文档智能化处理场景。
MathVista - 视觉数学推理评估基准
MathVista数学推理视觉理解大语言模型多模态模型Github开源项目
MathVista是一个评估AI模型视觉数学推理能力的基准测试。该数据集包含6,141个样本,涵盖31个多模态数据集。任务要求模型具备深度视觉理解和复合推理能力,对当前顶尖AI模型构成挑战。MathVista为研究人员提供了一个衡量AI模型在视觉数学任务中表现的标准化工具。
vip-llava-7b - ViP-LLaVA的多模态对话与视觉指令协同应用
聊天机器人ViP-LLaVA多模态模型自然语言处理计算机视觉HuggingfaceGithub开源项目模型
ViP-LLaVA-7B是一个开源的聊天机器人,通过对LLaMA/Vicuna的图像与区域级指令数据进行微调,采用transformer架构。其主要用于多模态模型及聊天机器人研究,适合计算机视觉、自然语言处理、机器学习与人工智能领域的研究者及爱好者。该模型于2023年11月完成训练,并在四项学术区域级基准测试中表现优异。
layoutlmv3-large - 统一文本和图像掩码的文档AI预训练模型
模型开源项目多模态模型文档AI预训练HuggingfaceTransformerGithubLayoutLMv3
LayoutLMv3是一种用于文档AI的多模态Transformer模型,由Microsoft Document AI项目开发。该模型采用统一的文本和图像掩码预训练方法,架构简单且通用。LayoutLMv3可应用于表单理解、收据识别、文档视觉问答等文本相关任务,以及文档图像分类和布局分析等图像相关任务。这种灵活性使其成为文档AI领域的通用预训练模型,为多种文档处理任务提供了有力支持。
Llama-3.2-11B-Vision - Meta开发的多模态大语言模型 支持视觉识别和图像推理
模型GithubLLAMA 3.2开源项目多模态模型Huggingface机器学习自然语言处理计算机视觉
Llama-3.2-11B-Vision是Meta开发的多模态大语言模型,支持图像和文本输入、文本输出。该模型在视觉识别、图像推理、图像描述和通用图像问答方面表现出色。它基于Llama 3.1文本模型构建,采用优化的Transformer架构,通过监督微调和人类反馈强化学习进行对齐。模型支持128K上下文长度,经过60亿(图像,文本)对训练,知识截止到2023年12月。Llama-3.2-11B-Vision为商业和研究用途提供视觉语言处理能力。
CLIP-ViT-L-14-DataComp.XL-s13B-b90K - 基于DataComp-1B数据集训练的零样本图像分类器
OpenCLIPCLIP模型多模态模型零样本图像分类Github开源项目HuggingfaceDataComp-1B
CLIP ViT-L/14是一个基于DataComp-1B大规模数据集训练的多模态模型。在ImageNet-1k上达到79.2%的零样本分类准确率,可用于图像分类、检索等任务。该模型主要面向研究社区,旨在促进对零样本和任意图像分类的探索。由stability.ai提供计算资源支持,不建议直接用于部署或商业用途。
idefics-9b-instruct - 多模态生成模型提升图像与文本的交互性
图像文本生成Hugging Face多模态模型HuggingfaceGithub开源项目模型IDEFICS文本生成
IDEFICS是基于开源数据开发的多模态文本生成模型,处理图像和文本输入并生成文字。模型可描述视觉内容、回答图像相关问题,性能接近于原闭源模型Flamingo。IDEFICS有80亿和9亿参数版本,通过微调增强在对话中的表现,建议优先使用增强版。
llava-interleave-qwen-0.5b-hf - 多模态模型中的图像到文本生成的应用与研究
机器学习Github模型图像文本转换开源项目多模态模型HuggingfaceLLaVA Interleave自然语言处理
LLaVA Interleave是基于变换器架构进行优化的开源自回归语言模型,专注于多模态大模型和聊天机器人的研究,支持多图像和多提示生成,适用于计算机视觉和自然语言处理领域的研究人员和爱好者。在遵循开放许可证要求的前提下,模型提升了图像到文本的生成能力。通过4比特量化和Flash Attention 2优化策略,显著提高了生成效率。
llava-v1.6-vicuna-7b-hf - 改进的多模态AI模型 增强图像理解和常识推理能力
模型图像文本生成开源项目多模态模型Huggingface人工智能助手GithubLLaVA-Next视觉语言处理
LLaVA-NeXT是基于LLaVA-1.5的改进版多模态AI模型。通过增加输入图像分辨率和优化视觉指令调优数据集,该模型显著提升了OCR和常识推理能力。它结合了预训练的大型语言模型和视觉编码器,适用于图像描述、视觉问答和多模态聊天机器人等任务。LLaVA-NeXT支持动态高分辨率处理,并采用多样化、高质量的数据混合方法,从而提供更精确和全面的图像理解。
Qwen2-VL-7B-Captioner-Relaxed - 基于Qwen2-VL的高精度图像描述模型
多模态模型Qwen2-VL-7B-Captioner-RelaxedHuggingface模型Github自然语言生成开源项目图像描述文本到图像生成
Qwen2-VL-7B-Captioner-Relaxed是Qwen2-VL-7B-Instruct的优化版本,专注于生成细致全面的图像描述。该模型采用自然语言定位图像主体,提供更灵活的描述,适用于文本到图像生成任务。尽管在某些任务上性能略有降低,但它为创建高质量文本到图像数据集提供了理想方案。
siglip-large-patch16-256 - SigLIP模型采用优化损失函数实现图像文本多模态任务
模型多模态模型图像分类计算机视觉GithubSigLIPHuggingface开源项目自然语言处理
SigLIP是CLIP模型的改进版本,使用sigmoid损失函数进行语言-图像预训练。该模型在WebLI数据集上以256x256分辨率预训练,适用于零样本图像分类和图像-文本检索任务。通过优化损失函数,SigLIP实现了更高性能和更大批量规模。模型支持原始使用和pipeline API调用,在多项评估中展现出优于CLIP的表现。SigLIP为图像-文本多模态任务提供了新的解决方案。
xgen-mm-phi3-mini-instruct-r-v1 - Salesforce开发的大规模多模态模型 支持高分辨率图像处理
XGen-MM视觉语言模型多模态模型图像处理Huggingface模型AI研究Github开源项目
xgen-mm-phi3-mini-instruct-r-v1是Salesforce AI Research开发的大规模多模态模型。该模型在5B参数规模下实现了开源和闭源视觉语言模型中的领先性能,支持高分辨率图像处理,并具备出色的上下文学习能力。模型通过大规模训练提升了多模态AI技术水平,为图像理解和文本生成任务提供了强大支持。
ultravox-v0_3 - 集成语音和文本输入的多模态AI模型
多模态模型WhisperHuggingface模型Llama语音识别Github开源项目Ultravox
Ultravox-v0_3是Fixie.ai开发的多模态语音大语言模型,结合Llama3.1-8B-Instruct和Whisper-small技术。该模型可同时处理语音和文本输入,适用于语音助手、翻译和分析等场景。通过知识蒸馏方法,仅训练多模态适配器,保持基础模型不变。Ultravox在语音识别和翻译任务中展现出优秀性能,为语音交互应用提供了新的可能性。
uform-gen2-dpo - 基于偏好优化的视觉语言模型 用于图像描述和视觉问答
多模态模型UForm-Gen2-dpoHuggingface模型深度学习Github开源项目图像描述视觉问答
UForm-Gen2-dpo是一个经过直接偏好优化(DPO)训练的视觉语言模型,专门用于图像描述和视觉问答。该模型结合了CLIP式ViT-H/14视觉编码器和Qwen1.5-0.5B-Chat语言模型,能够生成准确的图像描述、回答图像相关问题,并支持多模态对话。在MME基准测试中,UForm-Gen2-dpo在感知、推理、OCR等多个图像理解任务上展现出优秀性能,为视觉语言处理提供了高效可靠的解决方案。
siglip-base-patch16-256 - 改进CLIP的多模态预训练模型SigLIP
多模态模型SigLIP计算机视觉图像分类Huggingface模型Github开源项目自然语言处理
SigLIP是一个基于CLIP改进的多模态预训练模型。它使用Sigmoid损失函数,在WebLI数据集上以256x256分辨率训练。相比CLIP,SigLIP在小批量和大规模批处理中都表现更好,适用于零样本图像分类和图像-文本检索任务。模型在多个基准测试中超越了CLIP,为图像-文本预训练领域带来了新进展。
glm-4v-9b - 开源多模态AI模型GLM-4V-9B展现卓越性能
多模态模型Huggingface模型GithubGLM-4V-9B视觉理解自然语言处理开源项目图像描述
GLM-4V-9B是一款由智谱AI开发的开源多模态人工智能模型,支持1120x1120高分辨率下的中英双语多轮对话。该模型在综合能力、感知推理、文字识别和图表理解等多个领域表现优异,与GPT-4-turbo、Gemini 1.0 Pro等主流模型相比具有竞争力。GLM-4V-9B支持8K上下文长度,为研究者和开发者提供了强大的视觉理解和语言处理能力。
owlvit-large-patch14 - 基于Vision Transformer的零样本目标检测模型
模型零样本学习视觉变换器开源项目多模态模型Huggingface物体检测GithubOWL-ViT
OWL-ViT模型采用CLIP和Vision Transformer架构,实现了零样本文本条件目标检测。它可以根据文本查询识别图像中的物体,无需预先定义类别。该模型在大规模图像-文本数据集上进行训练,并在COCO和OpenImages等数据集上微调。OWL-ViT为计算机视觉研究提供了新的可能性,尤其在零样本目标检测领域。
LLaVA-Video-7B-Qwen2 - 基于Qwen2的多模态视频理解与交互模型
模型Qwen2多模态模型开源项目Huggingface视频指令微调Github人工智能LLaVA-Video
LLaVA-Video-7B-Qwen2是基于Qwen2语言模型的7B参数多模态模型,专注于视频理解和交互。该模型支持处理最多64帧的视频,可进行图像、多图像和视频的交互。经LLaVA-Video-178K和LLaVA-OneVision数据集训练,具备32K tokens的上下文窗口。在ActNet-QA、EgoSchema和MLVU等多个视频理解基准测试中表现出色。模型提供了简便的代码,方便研究人员生成视频描述和回答相关问题。
VILA1.5-3b-s2 - 多模态视觉语言模型VILA支持边缘设备和多图像处理
VILA模型多模态模型Github边缘计算视觉语言模型开源项目Huggingface图像文本处理
VILA1.5-3b-s2是一个基于交错图像-文本数据预训练的视觉语言模型。它具备多图像处理能力,通过AWQ 4位量化可部署于边缘设备。该模型在多图像推理、上下文学习和视觉思维链等方面表现突出,同时保持优秀的文本处理性能。VILA1.5-3b-s2为多模态模型和聊天机器人研究提供了有力支持。
Video-LLaVA-7B - 统一图像和视频处理的多模态AI模型
多模态模型Huggingface模型大语言模型视觉语言处理视频理解Github开源项目Video-LLaVA
Video-LLaVA是一种新型多模态AI模型,采用对齐后投影方法学习统一视觉表示。该模型能同时处理图像和视频,具备出色的视觉推理能力。即使没有图像-视频配对数据,Video-LLaVA也能实现图像和视频间的有效交互。通过将统一视觉表示与语言特征空间绑定,该模型在多模态学习和各类视觉任务中展现优异性能。
llava-onevision-qwen2-72b-ov-sft - 基于Qwen2的多模态AI模型 支持图像和视频交互
多模态模型图像识别Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision
LLaVA-OneVision是基于Qwen2的多模态AI模型,支持图像、多图和视频交互。模型在专用数据集上训练,具有32K tokens上下文窗口,提供0.5B、7B和72B三种规模。支持英语和中文,可处理单图、多图和视频输入。项目开源了代码、在线演示和论文,为AI研究和开发提供了实用工具。
idefics2-8b - 多模态AI模型实现图文交互
模型图像理解Github开源项目多模态模型HuggingfaceIdefics2视觉AI自然语言对话
Idefics2是一款多模态AI模型,支持图像和文本的任意序列输入并生成文本输出。它能回答图像问题、描述视觉内容、基于多图创作故事,也可作为纯语言模型使用。相比前代,Idefics2在OCR、文档理解和视觉推理方面有显著提升。模型提供8B参数基础版、指令微调版和长对话优化版,均以Apache 2.0许可开源发布。
blip2-flan-t5-xl - 融合视觉和语言的多功能预训练模型用于图像理解和多模态任务
模型Github视觉问答多模态模型BLIP-2开源项目Huggingface自然语言处理图像描述
BLIP-2 Flan T5-xl是一款融合CLIP图像编码器、查询转换器和Flan T5-xl大语言模型的视觉-语言预训练模型。它擅长图像描述、视觉问答和基于图像的对话等多模态任务,在大规模图像-文本数据集上训练后展现出优秀的零样本和少样本学习能力。该模型为视觉理解和多模态应用研究提供了强大工具,但使用时需注意评估其在特定应用场景中的安全性和公平性。
llava-v1.5-7b-llamafile - LLaVA模型实现图像理解与自然语言交互的多模态AI
模型Github开源项目多模态模型Huggingface机器学习自然语言处理人工智能LLaVA
LLaVA-v1.5-7b-llamafile作为一个开源多模态AI模型,通过微调LLaMA/Vicuna而成。它整合了图像理解和自然语言处理功能,能够执行图像相关指令和进行对话。该模型于2023年9月推出,主要用于研究大型多模态模型和聊天机器人。LLaVA的训练数据包括558K图像-文本对和多种指令数据,在12个基准测试中表现优异。这个模型为计算机视觉和自然语言处理领域的研究人员提供了探索AI前沿应用的有力工具。
llava-1.6-mistral-7b-gguf - 基于Mistral-7B的LLaVA多模态模型GGUF量化版
MistralLLaVA模型多模态模型图像识别Github机器学习开源项目Huggingface
LLaVA-1.6-Mistral-7B是一款开源的视觉语言模型GGUF量化版本,提供3bit至8bit多个压缩等级选择。该模型整合了图像理解与对话能力,通过大规模图文对和多模态指令数据训练而成。其中4bit和5bit量化版本在性能与模型体积之间取得良好平衡,适合在计算资源有限的场景下部署使用
siglip-base-patch16-384 - 改进型CLIP架构的图像文本预训练模型
计算机视觉开源项目深度学习模型图像分类SigLIP多模态模型GithubHuggingface
SigLIP是基于CLIP架构的多模态模型,通过Sigmoid损失函数优化了图像文本预训练过程。模型在WebLI数据集完成预训练,支持零样本图像分类和文本检索任务。其特点是无需全局相似度标准化,既可支持大规模批量训练,也适用于小批量场景。
llama3-llava-next-8b - 基于Llama 3的开源多模态视觉语言AI模型
机器学习人工智能GithubLLaVAHuggingface深度学习开源项目模型多模态模型
LLaVA-NeXT-8b是基于Meta-Llama-3-8B-Instruct的开源多模态模型,通过558K图文对和超过700K多模态指令数据训练而成。该模型集成视觉理解与文本生成能力,支持图像描述、视觉问答等任务。模型采用高效的分布式训练方法,训练时间约15-20小时。目前仅供学术研究使用,商业应用受限。
Aria - 轻量级多模态原生混合专家模型实现高性能AI推理
开源项目模型多模态模型Aria人工智能模型训练机器学习GithubHuggingface
Aria是一个多模态原生MoE模型,集成了视觉、文本和视频处理能力。模型采用3.9B参数进行推理,支持64K长度的多模态输入,具备高效的视频处理性能。在文档理解、图表分析、视频理解等领域展现出稳定表现,能够满足多样化的AI应用需求。
Video-LLaVA-7B-hf - 基于LLM的统一视觉模型实现图像和视频的智能处理
多模态模型语言模型Github视觉识别开源项目Video-LLaVA视频分析Huggingface模型
Video-LLaVA是一个基于Vicuna-13b的开源多模态模型,通过统一的视觉表示编码器实现图像和视频内容的并行处理。该模型采用语言对齐投影方式,无需图像-视频配对数据即可完成训练。模型支持图像和视频的混合输入,可应用于内容理解、问答和描述等视觉分析任务。
Emu3-VisionTokenizer - Emu3多模态模型通过单一预测方法实现突破性能
多模态模型Github开源项目Emu3模型Huggingface图像生成视频生成人工智能
Emu3是一套创新的多模态模型,采用单一的下一个令牌预测方法进行训练。该模型将图像、文本和视频统一处理,从头训练单个Transformer模型。在生成和理解任务中,Emu3的表现超越了SDXL、LLaVA-1.6和OpenSora-1.2等知名模型,无需复杂架构。Emu3能生成高质量图像、理解视觉语言,并通过简单预测生成连贯视频,展现了多模态AI的新可能。
CLIP-ViT-g-14-laion2B-s12B-b42K - 用于零样本图像分类的先进研究工具
开源项目模型GithubHuggingfaceCLIP ViT-g/14多模态模型零样本学习LAION-5B图像分类
该模型专为研究社区而设计,采用LAION-5B数据集中的英语子集进行训练。它帮助研究人员探索零样本与任意图像分类的可能性,适用于跨学科的研究。该模型仅推荐用于研究目的,不适合用于商业化或未经测试的环境,并强调确保其安全和适当使用。