#图像文本生成
llava-1.5-7b-hf - 基于Llama 2的多模态AI模型 实现图像理解与对话
模型图像文本生成LLaVAGithub模型优化Huggingface开源项目多模态Transformers
LLaVA-1.5-7B是一个基于Llama 2架构的开源多模态视觉语言模型。通过指令微调,该模型实现了图像理解和对话能力,支持多图像输入和多轮对话。LLaVA-1.5-7B可应用于图像问答、视觉推理等任务,并提供便捷的pipeline接口。模型支持4比特量化和Flash Attention 2优化,可在普通GPU上高效运行。这为研究人员和开发者提供了一个功能强大的视觉语言AI工具。
idefics-9b-instruct - 多模态生成模型提升图像与文本的交互性
图像文本生成Hugging Face多模态模型HuggingfaceGithub开源项目模型IDEFICS文本生成
IDEFICS是基于开源数据开发的多模态文本生成模型,处理图像和文本输入并生成文字。模型可描述视觉内容、回答图像相关问题,性能接近于原闭源模型Flamingo。IDEFICS有80亿和9亿参数版本,通过微调增强在对话中的表现,建议优先使用增强版。
llava-v1.6-vicuna-7b-hf - 改进的多模态AI模型 增强图像理解和常识推理能力
模型图像文本生成开源项目多模态模型Huggingface人工智能助手GithubLLaVA-Next视觉语言处理
LLaVA-NeXT是基于LLaVA-1.5的改进版多模态AI模型。通过增加输入图像分辨率和优化视觉指令调优数据集,该模型显著提升了OCR和常识推理能力。它结合了预训练的大型语言模型和视觉编码器,适用于图像描述、视觉问答和多模态聊天机器人等任务。LLaVA-NeXT支持动态高分辨率处理,并采用多样化、高质量的数据混合方法,从而提供更精确和全面的图像理解。
paligemma-3b-pt-896 - 轻量级视觉语言模型支持多种图像文本任务
模型图像文本生成多语言支持GithubPaliGemma微调视觉语言模型Huggingface开源项目
PaliGemma是一个轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建。该模型可处理图像和文本输入并生成文本输出,支持多语言。PaliGemma在图像描述、视觉问答、文本识别等多种视觉语言任务中表现优异。经过大规模数据预训练后,可通过微调应用于特定视觉语言场景。
paligemma-3b-pt-448 - 多语言视觉语言模型 适用于多种图像相关任务
模型图像文本生成多语言支持GithubPaliGemma微调视觉语言模型Huggingface开源项目
PaliGemma-3b-pt-448是一款结合SigLIP视觉模型和Gemma语言模型的多语言视觉语言模型。该模型支持图像和文本输入,生成文本输出,适用于图像描述、视觉问答和文本阅读等任务。在多项基准测试中表现优异,尤其擅长处理高分辨率图像。研究人员和开发者可将其作为预训练模型,用于微调各类视觉语言应用。
NVLM-D-72B-nf4 - 多模态模型NF4量化与性能优化研究
GPU内存量化模型模型转换Github图像文本生成Huggingface开源项目NVLM-D-72B
NVLM-D-72B模型NF4量化转换项目利用BitsAndBytes技术实现双重量化,旨在优化性能。目前纯文本处理表现出色,但图像处理功能仍需完善。项目优化了modeling_intern_vit.py文件,提高了量化模块兼容性。模型运行需48GB以上显存,遵循CC BY-NC 4.0许可。该项目为探索大型多模态模型量化提供了宝贵经验。