#LLaVA-OneVision
llava-onevision-qwen2-72b-ov-chat - 多模态大语言模型支持图像、多图和视频交互
模型人工智能Github图像处理LLaVA-OneVisionHuggingface开源项目多模态自然语言处理
llava-onevision-qwen2-72b-ov-chat是一个为聊天场景优化的多模态大语言模型。该模型基于llava-onevision-72b-ov构建,通过迭代DPO训练提升了聊天能力,同时保持了良好的指令遵循能力。模型支持图像、多图和视频交互,在英语和中文方面表现出色。研究显示,其采用的迭代DPO训练方法有效增强了模型的聊天表现。
llava-onevision-qwen2-72b-si - 多模态模型提高视觉数据交互准确率
LLaVA-OneVision图像交互Huggingface准确率预训练模型Github开源项目多模态模型
此开源项目使用多模态模型,准确率介于85.1%至93.7%之间,在AI2D、DocVQA、Science-QA等数据集表现优异。基于Qwen2语言模型,LLaVA-OneVision能在多语言环境中与视觉数据进行交互,经过大型图像及视频数据集训练,使用bfloat16精度。
llava-onevision-qwen2-7b-si - 多模态AI模型实现图像和视频的深度理解
Huggingface机器学习多模态开源项目模型Qwen2Github图像识别LLaVA-OneVision
LLaVA-OneVision是一个基于Qwen2语言模型的多模态AI系统,拥有32K tokens的上下文窗口。该模型能够处理单图像、多图像和视频输入,在多个基准测试中表现出色。支持英语和中文,适用于广泛的视觉理解任务。开发者可通过提供的Python代码快速集成该模型,实现图像分析和问答功能。