Project Icon

llava-interleave-qwen-0.5b-hf

多模态模型中的图像到文本生成的应用与研究

LLaVA Interleave是基于变换器架构进行优化的开源自回归语言模型,专注于多模态大模型和聊天机器人的研究,支持多图像和多提示生成,适用于计算机视觉和自然语言处理领域的研究人员和爱好者。在遵循开放许可证要求的前提下,模型提升了图像到文本的生成能力。通过4比特量化和Flash Attention 2优化策略,显著提高了生成效率。

项目介绍:llava-interleave-qwen-0.5b-hf

项目背景

LLaVA Interleave 是一个开源的聊天机器人模型,基于 Transformer 架构并经过改进,使其能够处理多模态指令数据。模型的基础语言模型是 Qwen/Qwen1.5-7B-Chat,旨在在大型多模态模型和聊天机器人方面进行研究,其应用范围仅限于研究和探索,不支持商业用途。

目标用户

该模型主要面向在计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。这些用户可以利用模型进行深入的探索和实验以推动相关技术的发展。

使用指南

要使用该模型,用户需确保安装了 transformers 库,版本不低于 4.35.3。该模型支持多图像和多提示生成,可以在提示中传入多个图像。提示使用的格式应遵循特定模板(例如 USER: xxx\nASSISTANT:)并在查询图像的位置添加令牌 <image>

使用 pipeline 进行操作

以下代码示例展示了如何使用 llava-hf/llava-interleave-qwen-0.5b-hf 检查点来生成图像到文本的转换:

from transformers import pipeline, AutoProcessor
from PIL import Image    
import requests

model_id = "llava-hf/llava-interleave-qwen-0.5b-hf"
pipe = pipeline("image-to-text", model=model_id)
processor = AutoProcessor.from_pretrained(model_id)

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/ai2d-demo.jpg"
image = Image.open(requests.get(url, stream=True).raw)

conversation = [
    {
      "role": "user",
      "content": [
          {"type": "text", "text": "What does the label 15 represent? (1) lava (2) core (3) tunnel (4) ash cloud"},
          {"type": "image"},
        ],
    },
]
prompt = processor.apply_chat_template(conversation, add_generation_prompt=True)

outputs = pipe(image, prompt=prompt, generate_kwargs={"max_new_tokens": 200})
print(outputs)

使用纯 transformers 进行操作

以下示例展示如何在 GPU 设备上以 float16 精度运行生成:

import requests
from PIL import Image

import torch
from transformers import AutoProcessor, LlavaForConditionalGeneration

model_id = "llava-hf/llava-interleave-qwen-0.5b-hf"
model = LlavaForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=True, 
).to(0)

processor = AutoProcessor.from_pretrained(model_id)

conversation = [
    {
      "role": "user",
      "content": [
          {"type": "text", "text": "What are these?"},
          {"type": "image"},
        ],
    },
]
prompt = processor.apply_chat_template(conversation, add_generation_prompt=True)

image_file = "http://images.cocodataset.org/val2017/000000039769.jpg"
raw_image = Image.open(requests.get(image_file, stream=True).raw)
inputs = processor(images=raw_image, text=prompt, return_tensors='pt').to(0, torch.float16)

output = model.generate(**inputs, max_new_tokens=200, do_sample=False)
print(processor.decode(output[0][2:], skip_special_tokens=True))

模型优化

使用 bitsandbytes 库进行 4-bit 量化

若要实施 4-bit 量化,请确认安装了 bitsandbytes 软件包并有 CUDA 兼容的 GPU 设备。需要对代码进行简单修改:

model = LlavaForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=True,
+   load_in_4bit=True
)

通过 Flash-Attention 2 提升生成速度

若要进一步加速生成过程,需安装 flash-attn。可参考 Flash Attention 官方仓库的安装说明。代码调整如下:

model = LlavaForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=True,
+   use_flash_attention_2=True
).to(0)

许可证声明

该项目使用了一些原始数据集和检查点,这些资源受到各自原始许可证的约束。用户必须遵守这些原始许可证的所有条款和条件,其中包括但不限于 OpenAI 的使用条款以及类似的其他适用法律和法规。用户须确保其使用符合所有适用的法律和法规。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号