Project Icon

Macaw-LLM

多模态数据与语言模型的前沿整合技术

Macaw-LLM项目通过整合图像、视频、音频和文本数据,创新了多模态语言建模。该项目基于CLIP、Whisper和LLaMA等先进模型,实现了高效的数据对齐和一步到位的指令微调,创建了丰富的多模态指令数据集,涵盖多种任务。项目强调简单快速的对齐策略,展示出强大的多模态处理能力,有效提升了跨模态数据的解析和理解。

Logo
Logo         Logo         Logo         Logo         Logo

Macaw-LLM:集成图像、音频、视频和文本的多模态语言建模

Version License Stars Issues Python

¹ ² 吕晨阳, ³ 吴明浩, ¹ * 王龙跃, ¹ 黄鑫廷,

¹ 刘冰帅, ¹ 杜泽锋, ¹ 史树明, ¹ 涂召鹏

¹ 腾讯AI实验室, ² 都柏林城市大学, ³ 莫纳什大学

*王龙跃为通讯作者:vinnlywang@tencent.com

Macaw-LLM是一项开创性的尝试,在CLIP、Whisper和LLaMA的基础上,通过无缝结合图像🖼️、视频📹、音频🎵和文本📝数据,开创了多模态语言建模的先河。

📰 论文 :building_construction: 模型(通过dropbox) :building_construction: 模型(通过微云) :card_file_box: 数据集 :bricks: 代码 :monocle_face: 视频 :technologist: 演示

目录 📚

简介 Logo

图片描述或替代文本

近年来,语言建模领域取得了显著进展。然而,整合图像、视频、音频和文本等多种模态仍然是一项具有挑战性的任务。Macaw-LLM是同类模型中的首创,将用于处理视觉、听觉和文本信息的最先进模型CLIP、Whisper和LLaMA结合在一起。

主要特点 🔑

Macaw-LLM具有以下独特特点:

  1. 简单快速对齐:Macaw-LLM通过与LLM嵌入的简单快速对齐,实现了多模态数据的无缝集成。这一高效过程确保了各种数据类型的快速适应。
  2. 一阶段指令微调:我们的模型通过一阶段指令微调简化了适应过程,促进了更高效的学习体验。
  3. 新的多模态指令数据集:我们创建了一个新的多模态指令数据集,涵盖了利用图像和视频模态的各种指令任务,为未来多模态LLM的工作提供便利。

架构 Logo

Macaw-LLM由三个主要组件组成:

  1. CLIP:负责编码图像和视频帧。
  2. Whisper:负责编码音频数据。
  3. LLM(LLaMA/Vicuna/Bloom):编码指令和生成响应的语言模型。

这些模型的整合使Macaw-LLM能够有效处理和分析多模态数据。

对齐策略 Logo

我们的新型对齐策略通过高效地将多模态特征桥接到文本特征,实现了更快的适应。过程包括:

  1. 使用CLIP和Whisper编码多模态特征。
  2. 将编码后的特征输入注意力函数,其中多模态特征作为查询,LLaMA的嵌入矩阵作为键和值。
  3. 将输出注入LLaMA的输入序列(指令标记之前),实现最小附加参数的流畅对齐过程。

新的多模态指令数据集 🆕

Figure Description or Alt Text
在本项目中,我们使用GPT-3.5-Turbo生成数据集,以图像或视频说明作为提示。为创建该数据集,我们使用MS COCO数据集的图像说明以及Charades和AVSD数据集的视频说明。我们的数据集包含约69K个基于COCO图像说明的示例和50K个基于Charades和AVSD视频说明的示例。目前我们专注于单轮对话,但计划未来扩展到多轮对话和多样化的多模态内容。这将丰富数据集并改善语言学习模型(LLMs)的微调。
Figure Description or Alt Text

安装 Logo

按照以下步骤安装Macaw-LLM:

# 克隆仓库
git clone https://github.com/lyuchenyang/Macaw-LLM.git

# 切换到Macaw-LLM目录
cd Macaw-LLM

# 安装所需包
pip install -r requirements.txt

# 安装ffmpeg
yum install ffmpeg -y

# 安装apex
git clone https://github.com/NVIDIA/apex.git
cd apex
python setup.py install
cd ..

使用 🚀

  1. 下载数据集:

  2. 数据集预处理:

    • 将三种模态的数据放入特定文件夹 - data/text/data/image/data/video/
    • 从视频中提取帧和音频:
      python preprocess_data.py
      
    • 将监督数据转换为数据集:
      python preprocess_data_supervised.py
      
    • 将无监督数据转换为数据集:
      python preprocess_data_unsupervised.py
      
  3. 训练:

    • 执行训练脚本(可在其中指定训练参数):
      ./train.sh
      
  4. 推理:

    • 执行推理脚本(可在其中给出任何自定义输入):
      ./inference.sh
      

示例 Logo

我们展示了几个例子,突出了我们的Macaw-LLM在理解和遵循多模态指令方面的熟练程度。 这些例子展示了我们系统基于图像和视频理解和生成响应的多模态能力。这些例子演示了我们的系统如何理解视觉内容并在自然语言对话中产生高质量、流畅的响应。我们的系统针对图像中的各种问题生成上下文相关和信息丰富的答案,展示了其自然流畅地交流视觉内容的能力。

Figure Description or Alt Text

未来工作和贡献 🚀

虽然我们的模型仍处于早期阶段,但我们相信Macaw-LLM为多模态语言建模领域的未来研究铺平了道路。多样化数据模态的整合在推动人工智能边界和增强我们对复杂现实世界场景的理解方面具有巨大潜力。通过引入Macaw-LLM,我们希望激发这一激动人心研究领域的进一步探索和创新。

我们欢迎社区的贡献,以改进和扩展Macaw-LLM的功能。🤝

待办事项 👨‍💻

  • 评估: 我们展示了一些例子,展示了我们的Macaw-LLM的多模态能力。然而,我们承认这些努力可能不足以准确和全面地展示模型能力。我们的目标是对我们的系统进行广泛评估,以评估其能力。

  • 更多语言模型: 我们的目标是通过整合更多语言模型(如Dolly、BLOOM、T-5等)来扩展Macaw-LLM。这将实现更强大和多功能的多模态数据处理和理解。

  • 多语言支持: 我们的下一步是支持多种语言,朝着真正的多模态和多语言语言模型迈进。我们相信这将显著扩大Macaw-LLM的适用性,并增强其对多样化全球背景的理解。

致谢 🙏

我们要对以下开源项目对Macaw-LLM的宝贵贡献表示感谢:

  • Stanford Alpaca:提供了我们实验中使用的Alpaca数据集。
  • Parrot:提供了LLaMA训练的有用实现。
  • CLIP:提供了强大的图像和视频编码模型。
  • Whisper:提供了强大的音频编码模型。
  • LLaMA:提供了强大的大型语言模型。

我们还要感谢这些项目的开发者和维护者,他们的奉献和辛勤工作使得这些项目成为开源并能被社区访问。

引用

@article{lyu2023macaw,
  title={Macaw-LLM: 图像、音频、视频和文本集成的多模态语言建模},
  author={Lyu, Chenyang and Wu, Minghao and Wang, Longyue and Huang, Xinting and Liu, Bingshuai and Du, Zefeng and Shi, Shuming and Tu, Zhaopeng},
  journal={arXiv预印本 arXiv:2306.09093},
  year={2023}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号