📚 Multimodal-GPT简介
Multimodal-GPT是OpenMMLab团队开源的一个多模态对话模型项目,旨在训练能够进行视觉和语言交互的人工智能助手。该项目基于开源的多模态模型OpenFlamingo,通过各种视觉指令数据(如VQA、图像描述、视觉推理等)和语言指令数据的联合训练,有效提升了模型性能。
🔗 核心资源
🛠️ 快速上手
安装
- 克隆代码仓库:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
- 安装依赖:
pip install -r requirements.txt
pip install -v -e .
下载预训练权重
-
使用此脚本转换LLaMA权重为Hugging Face格式。
-
从openflamingo/OpenFlamingo-9B下载OpenFlamingo预训练模型。
-
下载Multimodal-GPT的LoRA权重。
-
将以上模型文件放入
checkpoints
文件夹。
运行Demo
执行python app.py
即可启动Gradio演示界面。
📊 数据集准备
Multimodal-GPT使用了多个开源数据集进行训练,包括:
详细的数据集下载和处理步骤请参考项目README。
🚀 开始训练
使用以下命令可以启动训练:
torchrun --nproc_per_node=8 mmgpt/train/instruction_finetune.py \
--lm_path checkpoints/llama-7b_hf \
--tokenizer_path checkpoints/llama-7b_hf \
--pretrained_path checkpoints/OpenFlamingo-9B/checkpoint.pt \
--run_name train-my-gpt4 \
--learning_rate 1e-5 \
--lr_scheduler cosine \
--batch_size 1 \
--tuning_config configs/lora_config.py \
--dataset_config configs/dataset_config.py \
--report_to_wandb
🙏 致谢
Multimodal-GPT项目得益于多个开源项目的贡献,包括OpenFlamingo、LAVIS、Stanford Alpaca、MiniGPT-4、LLaVA等。如果您在研究中使用了Multimodal-GPT,请引用其技术报告。
希望这份学习资料汇总能帮助你快速了解和上手Multimodal-GPT项目。如果你对多模态AI助手感兴趣,不妨深入探索这个开源项目,为其发展贡献自己的力量!