#多模态

InternVL2-4B - 先进多模态大语言模型探索视觉语言理解新高度
多模态Huggingface模型指令微调大语言模型图像理解Github开源项目InternVL2
InternVL2-4B是一个多模态语言模型,集成InternViT-300M-448px视觉编码器和Phi-3-mini-128k-instruct语言模型。该模型在文档理解、图表问答和场景文字识别等任务中表现优异,超越多数开源方案。支持8K上下文窗口,可处理长文本、多图像和视频输入,在多模态能力评测中展现与商业模型相当的性能。
llama3-llava-next-8b-hf - LLaVA-NeXT:Llama 3驱动的多模态AI模型
模型LLaVA-NeXTGithub图像处理深度学习Huggingface开源项目多模态自然语言处理
LLaVA-NeXT是一个基于Llama 3的多模态AI模型,整合了预训练语言模型和视觉编码器。通过高质量数据混合和强化语言骨干网络,该模型在图像描述、视觉问答和多模态对话等任务中表现出色。LLaVA-NeXT支持Python接口,并提供4位量化和Flash Attention 2优化,以提升性能和效率。作为开源项目,LLaVA-NeXT为研究人员和开发者提供了探索多模态AI的有力工具。
llava-onevision-qwen2-7b-ov-chat - LLaVA-OneVision多模态AI模型支持图像和视频交互
多模态图像处理Huggingface模型深度学习Github开源项目自然语言处理LLaVA-OneVision
LLaVA-OneVision是一款基于Qwen2架构的多模态AI模型,专门针对聊天场景进行优化。该模型通过多阶段训练,包括LCS-558K预训练、高质量合成数据训练和单图数据训练等,最终经过RLHF进一步提升性能。它能够与图像、多图和视频进行交互,同时保持良好的指令遵循能力,是一个versatile的视觉语言模型。
llava-onevision-qwen2-0.5b-si - 多模态AI模型实现图像、多图和视频的智能交互
模型Github图像处理LLaVA-OneVision视觉语言模型Qwen2Huggingface开源项目多模态
LLaVA-OneVision是一个基于Qwen2的多模态AI模型,能够处理图像、多图和视频输入。它具有32K tokens的上下文窗口,支持英文和中文交互。该模型在AI2D、ChartQA和DocVQA等多项任务中表现优异,为视觉语言应用提供了强大的基础。LLaVA-OneVision采用LLaVA-OneVision数据集进行训练,可轻松集成到各类视觉语言项目中。
NVLM-D-72B - 开源前沿级多模态大语言模型 实现视觉语言任务的最新突破
模型人工智能Github大语言模型视觉语言开源项目HuggingfaceNVLM多模态
NVLM-D-72B是一款开源的多模态大语言模型,在视觉语言任务上表现卓越,达到了与顶级专有和开源模型相当的水平。该模型不仅擅长视觉语言任务,在多模态训练后其纯文本处理能力也有所提升。NVLM-D-72B可执行光学字符识别、多模态推理、定位、常识推理等多种任务,为AI研究社区提供了强大的开源多模态能力。
Qwen-Audio-Chat - 多模态音频语言模型支持多种音频类型和复杂场景分析
模型多任务学习开源项目Huggingface音频语言模型语音识别多模态Qwen-AudioGithub
Qwen-Audio-Chat是一款大规模音频语言模型,支持多种音频输入和文本输出。该模型采用创新的多任务学习框架,可处理30多种音频任务,在多个基准测试中表现优异。它能够支持多轮对话、声音理解、音乐欣赏等复杂场景,为音频AI研究和应用提供了有力工具。Qwen-Audio-Chat已开源模型代码和权重,并允许商业使用,推动了音频AI技术的发展。
llava-v1.6-mistral-7b - LLaVA-v1.6:融合图像与文本理解的开源多模态AI模型
模型HuggingfaceLLaVAGithub图像文本大语言模型指令调优开源项目多模态
LLaVA-v1.6-Mistral-7B是一个基于Mistral-7B-Instruct-v0.2的开源多模态AI模型。这个模型通过大规模多模态指令数据微调,能同时处理图像和文本输入。2023年12月发布的LLaVA-v1.6-Mistral-7B主要应用于多模态模型和AI对话系统研究。该模型在12个评估基准上表现优异,涵盖5个学术视觉问答任务和7个针对指令理解的最新多模态模型基准。
llava-onevision-qwen2-7b-ov-hf - 支持单图多图和视频理解的多模态语言模型
多模态Huggingface模型视频理解图像理解人工智能GithubLLaVA-Onevision开源项目
LLaVA-Onevision-qwen2-7b-ov-hf是一个基于Qwen2微调的开源多模态大语言模型。作为首个能在单图、多图和视频场景中同时提升性能的模型,它展现了卓越的跨模态和跨场景迁移学习能力。该模型特别擅长视频理解和跨场景任务,支持多图像和多提示生成,适用于广泛的视觉理解应用。
MiniCPM-V-2_6-int4 - 精简高效的多语言视觉AI对话模型
模型MiniCPM-V开源项目HuggingfaceHugging Face图像识别多模态Github量化模型
MiniCPM-V-2_6-int4是一款经过int4量化的多语言视觉对话模型,GPU内存占用仅约7GB。该模型支持图像理解、OCR、多图像处理和视频分析等视觉任务,可通过Python代码实现流式输出。作为一个资源友好型视觉AI工具,MiniCPM-V-2_6-int4在保持性能的同时提高了部署效率,适合开发者进行各类视觉AI应用开发。
cogvlm-chat-hf - 开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B
模型开源GithubCogVLM图像识别视觉语言模型Huggingface开源项目多模态
CogVLM是一款开源视觉语言模型,具有100亿视觉参数和70亿语言参数。在NoCaps、Flicker30k等10个经典跨模态基准测试中,CogVLM实现了最先进的性能,部分超越PaLI-X 55B。其架构包括视觉变换器编码器、MLP适配器、预训练语言模型和视觉专家模块。CogVLM能进行多模态对话,适用于图像描述和视觉问答等任务。该模型对学术研究开放,经登记后可免费用于商业用途。
llava-onevision-qwen2-72b-ov-chat - 多模态大语言模型支持图像、多图和视频交互
模型人工智能Github图像处理LLaVA-OneVisionHuggingface开源项目多模态自然语言处理
llava-onevision-qwen2-72b-ov-chat是一个为聊天场景优化的多模态大语言模型。该模型基于llava-onevision-72b-ov构建,通过迭代DPO训练提升了聊天能力,同时保持了良好的指令遵循能力。模型支持图像、多图和视频交互,在英语和中文方面表现出色。研究显示,其采用的迭代DPO训练方法有效增强了模型的聊天表现。
Qwen2-VL-7B-Instruct-GPTQ-Int4 - 量化模型支持多分辨率视觉理解
模型图像理解Qwen2-VLGithub视频理解视觉语言模型Huggingface开源项目多模态
Qwen2-VL-7B-Instruct-GPTQ-Int4是一款量化视觉语言模型,支持多分辨率图像和20分钟以上视频理解。模型具备复杂推理能力,可应用于移动设备和机器人操作。支持多语言理解,包括欧洲语言、日语和韩语等。采用动态分辨率和多模态旋转位置嵌入技术,在视觉理解基准测试中表现出色。
llava-onevision-qwen2-0.5b-ov - 支持多模态输入的视觉语言AI模型
多模态图像处理Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision
LLaVA-OneVision-qwen2-0.5b-ov是基于Qwen2语言模型开发的多模态AI模型。该模型可处理图像、多图和视频输入,支持英语和中文交互。在LLaVA-OneVision数据集上训练后,模型具备32K tokens的上下文窗口,能执行图像问答、视频理解等多种视觉任务。其在多个多模态基准测试中表现优异,展现了强大的视觉语言处理能力。
LLaVA-NeXT-Video-7B-hf - 先进多模态AI模型实现视频和图像理解
模型人工智能Github大语言模型LLaVA-NeXT-Video视频理解Huggingface开源项目多模态
LLaVA-NeXT-Video-7B-hf是一个开源多模态AI模型,通过视频和图像数据的混合微调,实现了出色的视频理解能力。该模型支持多视觉输入和多提示生成,在VideoMME基准测试中表现优异。基于Vicuna-7B语言模型,可处理视频问答和图像描述等视觉任务。模型支持4位量化和Flash Attention 2优化,提供灵活高效的使用方式。
Qwen2-VL-7B-Instruct-GPTQ-Int8 - Qwen2-VL模型:支持多语言的视觉理解与设备自动化
自动操作Qwen2-VL开源项目模型Github多语言支持Huggingface多模态视频理解
Qwen2-VL模型具备多种新特性,包括对图像及长视频的高性能理解能力,以及多语言文本支持。该模型通过M-ROPE机制进行多模态处理,并在性能基准测试中,展示了其量化优化后的准确性和速度。这一特性让其能广泛用于移动设备和机器人等自动化操作。
MiniCPM-V-2 - 多模态语言模型,支持跨平台高效部署
场景文本理解MiniCPM-V深度学习HuggingfaceGithub开源项目视觉问答多模态模型
MiniCPM-V 2.0是一个多模态大模型,以高效端侧部署和可靠性为特色,支持OCRBench和TextVQA等基准测试。该模型结合RLHF多模态技术,减少幻觉生成,并能处理任意宽高比的高分辨率图像。MiniCPM-V 2.0可在多数GPU和PC上高效运行,拥有中英双语支持,并能够在移动设备上执行,提供多种部署选择。
InternVL2-40B - 强化跨模态大语言模型的能力
场景文本理解视觉理解InternVLHuggingface计算机视觉Github开源项目多模态模型
InternVL 2.0 通过融合多模态大语言模型,在文件和图表理解、信息图问答、场景文本理解和OCR任务等方面表现出色。它能够利用长文本、多图片和视频进行训练,提升对多种输入的处理效率,并提供1亿到108亿参数的多种模型可选择,与商业模型相当。在多项基准测试中,InternVL 2.0 展示了其卓越的综合理解能力。
Qwen2-VL-72B-Instruct-GPTQ-Int8 - 改进视觉和文本处理能力的多模态模型
视觉理解Qwen2-VL开源项目模型Github视频分析多语言支持Huggingface多模态
本项目是一个多模态视觉语言模型,具有高效的图像理解和多语言支持。它能够处理超过20分钟的视频内容,并可整合到移动设备和机器人中进行自动化操作。通过应用动态分辨率处理和多模态旋转位置嵌入,该模型提升了视觉处理能力。此外,项目还提供了便于快速部署的工具包,助力处理各类视觉任务。
internlm-xcomposer2d5-7b - 7B参数规模实现视觉语言理解和创作的开源多模态模型
长文本处理开源项目模型多模态InternLM-XComposer-2.5网页生成图像理解GithubHuggingface
InternLM-XComposer2.5采用7B参数规模构建,通过24K交错图文上下文训练,支持扩展至96K长文本理解。这个开源多模态模型在视频理解、多图对话、高清图像分析、网页生成和文章创作等场景中展现出强大的理解与创作能力。其优秀的长文本处理特性使其能够处理需要大量上下文的复杂任务。
MiniCPM-V-2_6-gguf - 高性能GGUF格式多模态模型转换与部署指南
GithubMiniCPM-V模型转换Huggingface多模态开源项目模型量化推理
MiniCPM-V-2.6是一个支持GGUF格式转换的多模态模型项目。项目展示了PyTorch模型到GGUF格式的转换流程,实现F16和INT4量化,并在Linux及Mac平台实现本地部署。项目提供完整的模型转换、构建和推理步骤,方便开发者进行多模态模型的本地化部署。
pixtral-12b - 支持多图片交互分析的开源视觉语言模型
图像识别机器学习GithubHuggingface多模态开源项目transformers模型Pixtral
pixtral-12b基于Transformers框架开发,是一个支持多图片处理的视觉语言模型。该模型可处理图文混合输入,实现图片内容识别、场景描述及图片关系分析。通过简单的API调用,开发者可快速实现多模态对话和图像分析功能。
Qwen-VL-Chat - 多语言视觉对话模型 支持图文交互和物体定位
视觉语言模型Github自然语言处理HuggingfaceQwen-VL多模态开源项目模型图像理解
Qwen-VL-Chat是一款视觉语言对话模型,可处理图像、文本和检测框等多模态输入。该模型支持多语言对话和跨语言图文理解,具备物体定位和细粒度图像识别能力。经过量化优化后,模型显存占用更低、推理速度更快。在图像描述、视觉问答等多项评测基准上表现优异。
InternVL2-26B - 全新多模态智能体实现长文本多图像及视频的智能理解
InternVL2大语言模型多模态AI识别计算机视觉模型GithubHuggingface开源项目
InternVL2-26B是一个基于视觉模型InternViT-6B和语言模型internlm2-chat-20b开发的多模态模型。通过8K上下文窗口支持长文本处理,同时具备多图像和视频分析能力。在文档理解、图表分析和场景文字识别等评测中表现优异,性能达到开源模型领先水平。
Chat-UniVi - 基于动态视觉令牌的图像视频双模态理解模型
图像处理开源项目模型多模态Github视频理解Chat-UniVi大语言模型Huggingface
Chat-UniVi是一个创新的大语言模型框架,采用动态视觉令牌技术实现图像和视频的统一处理。通过混合数据集训练,模型可同时处理图像空间信息和视频时序关系,性能超越了单一模态的专用模型。该项目为多模态AI技术发展提供了新的解决方案。
VILA1.5-13b - 多图像推理与跨设备应用的视觉语言模型
VILAGithub开源项目多模态TransformerHuggingface多图推理视觉语言模型模型
此页面介绍VILA模型,一种用于多模态研究的视觉语言模型,通过大规模图文数据预训练,提升多重推理能力。VILA支持多图像推理、情境学习,并提供更丰富的知识表现。通过AWQ 4bit量化,模型适用于Jetson Orin等边缘设备,兼顾性能与兼容性。适合计算机视觉与自然语言处理结合的研究者,支持Linux系统,具备出色的指令跟随和视觉推理能力。
nanoLLaVA - 轻量级视觉语言模型实现边缘设备高效部署
Github开源项目nanoLLaVA模型多模态Huggingface机器学习视觉语言模型人工智能
nanoLLaVA是一款1B级视觉语言模型,结合Quyen-SE和SigLIP视觉编码器技术。该模型在VQA v2和TextVQA等视觉问答测试中表现优异,同时优化了在边缘设备上的运行效率。nanoLLaVA采用ChatML标准,支持图像描述和视觉问答功能,并提供简洁的API接口,方便开发者集成到不同应用场景。
llava-v1.6-vicuna-13b - 强大的图文多模态AI模型 集成Vicuna-13b实现视觉智能对话
视觉问答开源项目LLaVA模型多模态大型语言模型Huggingface指令跟随Github
LLaVA-v1.6是基于Vicuna-13b微调的开源多模态AI模型,通过大规模图文对和指令数据训练而成。该模型擅长学术视觉问答和通用图像理解,支持自然的图文交互。采用transformer架构,为计算机视觉和自然语言处理研究提供了强大的视觉语言处理工具。
nomic-embed-vision-v1.5 - 高性能视觉嵌入模型实现多模态共享空间
模型训练开源项目nomic-embed-vision-v1.5模型GithubHuggingface嵌入模型多模态图像处理
nomic-embed-vision-v1.5是一款视觉嵌入模型,与nomic-embed-text-v1.5共享嵌入空间。该模型在ImageNet零样本和Datacomp基准测试中表现出色,优于OpenAI CLIP和Jina CLIP。它支持多模态检索,适用于文本到图像的检索场景。开发者可通过Nomic嵌入API或Transformers库使用该模型生成嵌入。nomic-embed-vision-v1.5为多模态检索增强生成(RAG)应用提供了有力支持。
llava-onevision-qwen2-72b-si - 多模态模型提高视觉数据交互准确率
LLaVA-OneVision图像交互Huggingface准确率预训练模型Github开源项目多模态模型
此开源项目使用多模态模型,准确率介于85.1%至93.7%之间,在AI2D、DocVQA、Science-QA等数据集表现优异。基于Qwen2语言模型,LLaVA-OneVision能在多语言环境中与视觉数据进行交互,经过大型图像及视频数据集训练,使用bfloat16精度。
llava-v1.6-vicuna-7b - 基于Vicuna的开源多模态视觉语言模型
Github模型开源项目多模态图文理解LLaVAHuggingface视觉问答大语言模型
LLaVA-v1.6-vicuna-7b是一个基于Vicuna-7B开发的开源多模态模型,支持图像和文本的理解与处理。模型训练数据包含558K图文对和158K多模态指令等多样化数据集,通过12个基准测试验证其性能表现,可用于视觉语言研究与应用开发。
LanguageBind_Audio - 语言驱动的多模态预训练解决方案
语义对齐公开源码开源项目模型多模态HuggingfaceLanguageBind数据集Github
LanguageBind是一个语言驱动的多模态预训练工具,在五个数据集上表现出色。该项目采用VIDAL-10M数据集,将视频、红外、深度、音频和语言模态结合,实现了跨越视觉模态的扩展。通过多视图增强和ChatGPT的结合,它提高了语言的语义表达,并支持在线和本地运行,包括音频与语言、视频与语言的相似性计算。
Anole-7b-v0.1-hf - 基于深度学习的多模态文本图像交互生成模型
图文生成深度学习机器学习HuggingfaceGithub开源项目多模态模型Anole
Anole-7b-v0.1-hf是一个基于深度学习的多模态模型,专注于文本和图像的联合生成。该模型在Chameleon基础上,通过6000张图像数据集的微调训练,实现了文本图像交互生成、图像理解等核心功能。模型支持结构化生成、文本到图像转换、文本图像混合输出等应用场景,可用于多模态AI研究与开发。测试显示该模型能准确理解指令并生成符合要求的图文内容。
llava-onevision-qwen2-7b-si - 多模态AI模型实现图像和视频的深度理解
Huggingface机器学习多模态开源项目模型Qwen2Github图像识别LLaVA-OneVision
LLaVA-OneVision是一个基于Qwen2语言模型的多模态AI系统,拥有32K tokens的上下文窗口。该模型能够处理单图像、多图像和视频输入,在多个基准测试中表现出色。支持英语和中文,适用于广泛的视觉理解任务。开发者可通过提供的Python代码快速集成该模型,实现图像分析和问答功能。
ultravox-v0_4 - 结合语音与文本处理的多模态模型
模型语音识别多模态开源项目HuggingfaceUltravoxGithubFixie.aiAI模型
Ultravox是一种多模态语言模型,结合了Llama3.1-8B和Whisper-medium技术,支持语音和文本的输入。通过特殊音频标记,该模型将音频转换为文本嵌入以生成输出。未来版本计划支持直接生成语音。Ultravox可以应用于语音代理、翻译和音频分析。模型使用多语种语音识别数据集进行训练,并在8x H100 GPU上运用BF16精度。最新版本在A100-40GB GPU上实现首次生成标记时间约为150毫秒。
kosmos-2.5 - 文本密集型图像处理的多模态模型
模型训练文档转换Kosmos-2.5文本识别HuggingfaceGithub开源项目多模态模型
Kosmos-2.5 是一个专注于文本密集型图像的多模态识别模型,采用自回归Transformer架构,能够生成带有空间坐标的文本块和Markdown格式的文本输出。其设计允许通过不同的任务提示进行微调,适应多种应用场景。
Vidu - 高效视频生成平台,支持文本与图像转换成视频
AI工具ViduAI视频多模态主体参照图生视频
Vidu是生数科技与清华大学研发的自主视频生成平台,通过输入文字或上传图片快速创建高质量视频。核心功能包括主体参照、文本生成视频和图像生成视频。其独特技术及多模态视频模型帮助创作者实现视频中角色和场景的一致性,适用于影视、动漫、广告等行业,生成速度快,同时具备强大的语义理解能力和精准呈现效果。