Macaw-LLM

Macaw-LLM 项目介绍

项目背景

近年来，语言模型领域取得了显著的进展。然而，将图像、视频、音频和文本等多种形式的数据进行集成，依然是一项充满挑战的任务。Macaw-LLM 项目正是在这一背景下诞生的，结合了目前顶尖的视觉、听觉和文本信息处理模型，如 CLIP、Whisper 和 LLaMA。

主要特点

Macaw-LLM 具有以下几个独特的功能：

简单快速的对齐：实现多模态数据与大语言模型（LLM）嵌入的快速并无缝对接，以确保多样化数据类型的快速适应。
单阶段指令微调：通过单一阶段的指令微调，优化模型的适应过程，提高学习效率。
全新的多模态指令数据集：创建了一个新的多模态指令数据集，涵盖了利用图像和视频等视觉模式的多种任务，从而为未来的多模态 LLM 研究提供了便利。

架构设计

Macaw-LLM 主要由三部分组成：

CLIP：负责编码图像和视频帧。
Whisper：负责编码音频数据。
LLM（如 LLaMA/Vicuna/Bloom）：负责编码指令并生成响应。

这几个模块的有机结合，使 Macaw-LLM 能够有效地处理和分析多模态数据。

对齐策略

Macaw-LLM 的对齐策略独具创新性，有助于快速适应多模态特征与文本特征间的衔接。其过程包括：

利用 CLIP 和 Whisper 编码多模态特征。
将编码后的特征输入注意力函数，在此过程中，多模态特征作为查询项，LLaMA 的嵌入矩阵则作为键值。
将输出结果注入 LLaMA 的输入序列中，使对齐过程更加简便，并且仅需极少的额外参数。

新的多模态指令数据集

该项目使用 GPT-3.5-Turbo 结合图像或视频的描述生成了一个数据集。图像数据来自 MS COCO 数据集，而视频数据则基于 Charades 和 AVSD 数据集。数据集中包含了大约 69,000 个 COCO 图像描述例子和 50,000 个视频描述例子。目前，数据集主要集中于单轮对话，但未来将扩展至多轮对话与多样的多模态内容，以此来丰富数据集并提升语言学习模型的微调效果。

安装指南

用户可以按照以下步骤安装 Macaw-LLM：

# 克隆代码仓库
git clone https://github.com/lyuchenyang/Macaw-LLM.git

# 进入 Macaw-LLM 目录
cd Macaw-LLM

# 安装必要的包
pip install -r requirements.txt

# 安装 ffmpeg
yum install ffmpeg -y

# 安装 apex
git clone https://github.com/NVIDIA/apex.git
cd apex
python setup.py install
cd ..