#LLaVA-OneVision
llava-onevision-qwen2-7b-ov - 基于Qwen2的多模态模型 支持图像和视频理解
图像识别多模态Huggingface模型大语言模型视频理解Github开源项目LLaVA-OneVision
LLaVA-OneVision-qwen2-7b-ov是基于Qwen2开发的多模态模型,具备32K标记上下文窗口。该模型通过LLaVA-OneVision数据集训练,可理解图像、多图和视频内容。在AI2D、ChartQA、DocVQA等多个多模态基准测试中表现优异,支持英语和中文,适用于多种多模态应用场景。
llava-onevision-qwen2-7b-ov-chat - LLaVA-OneVision多模态AI模型支持图像和视频交互
多模态图像处理Huggingface模型深度学习Github开源项目自然语言处理LLaVA-OneVision
LLaVA-OneVision是一款基于Qwen2架构的多模态AI模型,专门针对聊天场景进行优化。该模型通过多阶段训练,包括LCS-558K预训练、高质量合成数据训练和单图数据训练等,最终经过RLHF进一步提升性能。它能够与图像、多图和视频进行交互,同时保持良好的指令遵循能力,是一个versatile的视觉语言模型。
llava-onevision-qwen2-0.5b-si - 多模态AI模型实现图像、多图和视频的智能交互
模型Github图像处理LLaVA-OneVision视觉语言模型Qwen2Huggingface开源项目多模态
LLaVA-OneVision是一个基于Qwen2的多模态AI模型,能够处理图像、多图和视频输入。它具有32K tokens的上下文窗口,支持英文和中文交互。该模型在AI2D、ChartQA和DocVQA等多项任务中表现优异,为视觉语言应用提供了强大的基础。LLaVA-OneVision采用LLaVA-OneVision数据集进行训练,可轻松集成到各类视觉语言项目中。
llava-onevision-qwen2-72b-ov-chat - 多模态大语言模型支持图像、多图和视频交互
模型人工智能Github图像处理LLaVA-OneVisionHuggingface开源项目多模态自然语言处理
llava-onevision-qwen2-72b-ov-chat是一个为聊天场景优化的多模态大语言模型。该模型基于llava-onevision-72b-ov构建,通过迭代DPO训练提升了聊天能力,同时保持了良好的指令遵循能力。模型支持图像、多图和视频交互,在英语和中文方面表现出色。研究显示,其采用的迭代DPO训练方法有效增强了模型的聊天表现。
llava-onevision-qwen2-72b-ov-sft - 基于Qwen2的多模态AI模型 支持图像和视频交互
多模态模型图像识别Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision
LLaVA-OneVision是基于Qwen2的多模态AI模型,支持图像、多图和视频交互。模型在专用数据集上训练,具有32K tokens上下文窗口,提供0.5B、7B和72B三种规模。支持英语和中文,可处理单图、多图和视频输入。项目开源了代码、在线演示和论文,为AI研究和开发提供了实用工具。
llava-onevision-qwen2-0.5b-ov - 支持多模态输入的视觉语言AI模型
多模态图像处理Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision
LLaVA-OneVision-qwen2-0.5b-ov是基于Qwen2语言模型开发的多模态AI模型。该模型可处理图像、多图和视频输入,支持英语和中文交互。在LLaVA-OneVision数据集上训练后,模型具备32K tokens的上下文窗口,能执行图像问答、视频理解等多种视觉任务。其在多个多模态基准测试中表现优异,展现了强大的视觉语言处理能力。
llava-onevision-qwen2-72b-si - 多模态模型提高视觉数据交互准确率
LLaVA-OneVision图像交互Huggingface准确率预训练模型Github开源项目多模态模型
此开源项目使用多模态模型,准确率介于85.1%至93.7%之间,在AI2D、DocVQA、Science-QA等数据集表现优异。基于Qwen2语言模型,LLaVA-OneVision能在多语言环境中与视觉数据进行交互,经过大型图像及视频数据集训练,使用bfloat16精度。
llava-onevision-qwen2-7b-si - 多模态AI模型实现图像和视频的深度理解
Huggingface机器学习多模态开源项目模型Qwen2Github图像识别LLaVA-OneVision
LLaVA-OneVision是一个基于Qwen2语言模型的多模态AI系统,拥有32K tokens的上下文窗口。该模型能够处理单图像、多图像和视频输入,在多个基准测试中表现出色。支持英语和中文,适用于广泛的视觉理解任务。开发者可通过提供的Python代码快速集成该模型,实现图像分析和问答功能。