mPLUG-Owl简介
mPLUG-Owl是由阿里巴巴达摩院开发的一系列多模态大语言模型,旨在赋予大语言模型多模态能力。该系列目前包括三个版本:
- mPLUG-Owl: 通过模块化学习为大语言模型赋予多模态能力
- mPLUG-Owl2: 革新多模态大语言模型,实现模态协作
- mPLUG-Owl3: 面向长图像序列理解的多模态大语言模型
mPLUG-Owl系列模型在指令理解、视觉理解、多轮对话和知识推理等方面展现出色的能力。
官方资源
- GitHub仓库: https://github.com/X-PLUG/mPLUG-Owl
- 在线演示: https://www.modelscope.cn/studios/damo/mPLUG-Owl
模型下载
- mPLUG-Owl3: HuggingFace
- mPLUG-Owl2.1 (中文增强版): HuggingFace
相关论文
- mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality
- mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
- mPLUG-Owl3: (论文待发布)
使用教程
-
安装依赖:
pip install -r requirements.txt
-
下载预训练模型
-
运行示例代码:
from mplug_owl import MplugOwlForConditionalGeneration, MplugOwlImageProcessor, MplugOwlTokenizer # 加载模型和处理器 model = MplugOwlForConditionalGeneration.from_pretrained("mplug-owl-llama-7b") image_processor = MplugOwlImageProcessor.from_pretrained("mplug-owl-llama-7b") tokenizer = MplugOwlTokenizer.from_pretrained("mplug-owl-llama-7b") # 准备输入 image = Image.open("example.jpg") prompt = "Describe this image in detail." inputs = image_processor(image, return_tensors="pt") # 生成文本 output = model.generate(**inputs, prompt=prompt) # 解码输出 generated_text = tokenizer.decode(output[0], skip_special_tokens=True) print(generated_text)
社区资源
- Hugging Face Space: https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
最新动态
- 2024.08.12: 发布mPLUG-Owl3
- 2024.04.05: mPLUG-Owl2被CVPR 2024接收为Highlight论文
- 2024.02.01: 发布mPLUG-Owl2.1中文增强版
mPLUG-Owl作为一个强大的多模态大语言模型家族,正在不断发展和进步。欢迎关注官方GitHub仓库以获取最新更新和信息。如果您对mPLUG-Owl有任何问题或建议,也可以在GitHub上提出issue或参与讨论。