
Otter
基于MIMIC-IT数据集和OpenFlamingo的多模态模型
该项目结合了OpenFlamingo模型和MIMIC-IT数据集进行多模态指令调优,拥有280万条指令-响应对,支持图像和视频内容的精确理解与互动。该项目还包括OtterHD模型,提升高分辨率视觉输入的细粒度解释,并推出MagnifierBench评估基准测试模型的微小物体识别能力。公开的代码可用于训练和预训练,并支持GPT4V的评估和Flamingo架构的多任务处理。
项目鸣谢 | Otter 论文 | OtterHD 论文 | MIMIC-IT 论文
检查点:
免责声明: 代码可能并非完美优化和重构,但所有开源代码均经过测试并可运行,因为我们也使用这些代码来支持我们的研究。如果有任何问题,请随时提出 issue。我们热切期望接收到改进代码质量的建议和 PR。
🦾 更新
[2023-11]: 支持 GPT4V 在 8 个基准上的评估;宣布 OtterHD-8B,是从 Fuyu-8B 改进而来的。详情请查看 OtterHD。
<div style="text-align:center"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/28b75099-83a4-475e-90c6-20ab70461644.png" width="100%" height="100%"> </div>- 🦦 新增了 OtterHD,其多模态在 Fuyu-8B 上进行了微调,以便进行高分辨率视觉输入的细粒度解释 且无需显式的视觉编码器模块。所有图像块都会进行线性变换,并与文本标记一起处理。这是非常创新和优雅的探索。我们对此很感兴趣,并在这条道路上进行了开源,我们开源了 Fuyu-8B 的微调脚本,并使用 Flash-Attention-2 将训练吞吐量提高了 4-5 倍。请尝试我们的微调脚本 OtterHD。
- 🔍 新增了 MagnifierBench,这是一个评估基准,旨在评估模型是否可识别微小物体(1%图像大小)的信息及其空间关系。
- 改进了 预训练 | SFT | RLHF 的管道,并使用 (部分) 当前领先的 LMMs。
- 模型: Otter | OpenFlamingo | Idefics | Fuyu
- 训练数据集接口: (预训练) MMC4 | LAION2B | CC3M | CC12M, (SFT) MIMIC-IT | M3IT | LLAVAR | LRV | SVIT...
- 我们测试了上述数据集在 OpenFlamingo 和 Otter 上的预训练和指令微调。我们还在 Idefics 和 Fuyu 上测试了这些数据集的指令微调。我们将逐步开源培训脚本。
- 基准接口: MagnifierBench/MMBench/MM-VET/MathVista/POPE/MME/SicenceQA/SeedBench。可以一键运行它们,详情请参见 基准。
datasets: - name: magnifierbench split: test prompt: Answer with the option's letter from the given choices directly. api_key: [Your API Key] # GPT4 或 GPT3.5 用于评估答案和真实答案。 debug: true # 设置 debug=true 将会在日志文件中保存模型回应。 - name: mme split: test debug: true - name: mmbench split: test debug: true models: - name: gpt4v api_key: [Your API Key] #调用 GPT4V 模型。
- 代码重构 以使用集成 YAML 文件组织多个数据集组,详情请见 管理 MIMIC-IT 格式的数据集。例如,
此更改较大,可能会导致之前的代码无法运行,请检查详情。IMAGE_TEXT: # 组名可以是 [IMAGE_TEXT, TEXT_ONLY, IMAGE_TEXT_IN_CONTEXT] LADD: # 数据集名称可以自定义 mimicit_path: azure_storage/json/LA/LADD_instructions.json # 指令 json 文件路径 images_path: azure_storage/Parquets/LA.parquet # 图像 parquet 文件路径 num_samples: -1 # 使用样本数,-1 代表使用所有样本,如果未设置,默认为 -1。 M3IT_CAPTIONING: mimicit_path: azure_storage/json/M3IT/captioning/coco/coco_instructions.json images_path: azure_storage/Parquets/coco.parquet num_samples: 20000
[2023-08]
- 增加了支持使用 Azure、Anthropic、Palm、Cohere 模型与 Syphus 管道进行 Self-Instruct,<<使用>>信息请修改此行为您选择的模型,并在环境中设置 API 密钥。详情请参见 LiteLLM
[2023-07]: 宣布 MIMIC-IT 数据集用于多段插图文/视频指令调优。
- 🤗 请访问 MIMIC-IT 在 Huggingface 进行数据集查询。
- 🥚 更新 Eggs 部分,用于下载 MIMIC-IT 数据集。
- 🥃 若您希望为您的工作场景(如卫星图像或有趣的视频)开发 Otter,请与我们联系。我们致力于支持和协助 Otter 的多样化应用。OpenFlamingo 和 Otter 是强大的模型,具备 Flamingo 的卓越设计架构,可接受多幅图片/视频或其他模态输入。让我们一起构建更多有趣的模型。
[2023-06]
- 🧨 下载 MIMIC-IT 数据集。有关数据集导航的更多详情,请参见 MIMIC-IT 数据集 README。
- 🏎️ 本地运行 Otter。您可以在本地运行我们至少需要 16G GPU 内存的模型,用于图像/视频标注、描述以及有害内容识别等任务。我们修复了一个视频推断的 Bug,其中
frame tensors
错误地扩展到了错误的vision_x
。请确保正确调整
sys.path.append("../..")
以访问otter.modeling_otter
以启动模型。 - 🤗 请查阅我们详细介绍 MIMIC-IT 的 论文。介绍 MIMIC-IT,这也是第一个拥有 2.8M 指令的多模态上下文指令调优数据集!从一般场景理解到细微差别的识别,再到增强 AR 头戴设备的自我中心观的理解,我们的 MIMIC-IT 数据集应有尽有。
🦦 为什么选择上下文指令调优?
大型语言模型(LLM)已展示出作为少/零样本学习者在众多任务中具备的杰出通用能力,这得益于它们在大量文本数据上的预训练。在这些 LLM 中,GPT-3 突显出其强大的能力。 此外,GPT-3 的变体,即 InstructGPT 和 ChatGPT,已证明其能够解释自然语言指令以执行复杂的现实任务,这要归功于指令调优。
受 Flamingo 模型上游交错格式预训练的启发,我们推出了 🦦 Otter,一个基于 OpenFlamingo(由 DeepMind 开源的 Flamingo 模型)的多模态模型。我们在我们提出的多模态上下文指令调优(MIMIC-IT)数据集上对 Otter 进行了上下文指令调优。Otter 在图像和视频方面展示了改进的指令跟随和上下文学习能力。
🗄 MIMIC-IT 数据集详情
<p align="center" width="100%"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/2ad9b274-eda5-4228-919a-375a0a0cddf2.png" width="80%" height="80%"> </p>MIMIC-IT 实现了可以回答“嘿,你觉得我把钥匙放在桌子上了吗?”这种问题的自我中心视觉助手模型。利用 MIMIC-IT 的力量来释放您的 AI 驱动视觉助手的全部潜力,并将您的互动视觉语言任务提升到新高度。
<p align="center" width="100%"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/e8823894-c02f-46de-8fae-4adebd81df43.png" width="80%" height="80%"> </p>我们还引入了 Syphus,一个自动生成多语言高质量指令-响应对的管道。基于 LLaVA 提出的框架,我们利用 ChatGPT 生成基于视觉内容的指令-响应对。为了保证生成的指令-响应对的质量,我们的管道使用了系统消息、视觉注释和上下文示例作为 ChatGPT 的提示。
更多详情,请查看 MIMIC-IT 数据集。
🤖 Otter 模型详情
<div style="text-align:center"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/b5493ec3-014e-4ce7-92f1-2ac302a0da54.png" width="100%" height="100%"> </div>Otter 旨在支持基于 OpenFlamingo 模型的多模态上下文指令调优,涉及将语言模型置于相应的媒介上,例如对应于标题或指令-响应对的图像。 我们在 MIMIC-IT 数据集上训练 Otter,约有 280 万对上下文指令-响应对,这些对被构造成一个连贯的模板以促进各种任务。Otter 支持视频输入(帧的排列与原始 Flamingo 的实现相同)和多图像输入作为上下文示例,这是第一个多模态指令调整模型。
以下模板包含图像、用户指令和模型生成的响应,利用 User
和 GPT
角色标签来实现用户助手的无缝互动。
prompt = f"<image>User: {instruction} GPT:<answer> {response}<endofchunk>"
在 MIMIC-IT 数据集上训练 Otter 模型使其能够获得不同的能力,通过 LA 和 SD 任务展示出来。在 LA 任务中训练的模型展示了出色的场景理解、推理能力和多轮对话能力。
# 多轮对话 prompt = f"<image>User: {first_instruction} GPT:<answer> {first_response}<endofchunk>User: {second_instruction} GPT:<answer>"
关于组织视觉-语言上下文示例的概念,我们在此展示了 Otter 模型在 LA-T2T 任务训练后获得的遵循上下文指令的能力。组织的输入数据格式如下:
# 含类似指令的多个上下文示例 prompt = f"<image>User:{ict_first_instruction} GPT: <answer>{ict_first_response}<|endofchunk|><image>User:{ict_second_instruction} GPT: <answer>{ict_second_response}<|endofchunk|><image>User:{query_instruction} GPT: <answer>"
有关更多详细信息,请参阅我们的论文附录中的其他任务。
🗂️ 环境
- 比较 nvidia-smi 和 nvcc --version 返回的 cuda 版本,它们需要匹配。或者至少 nvcc --version 获取的版本应该小于或等于 nvidia-smi 获取的版本。
- 安装与 cuda 版本匹配的 pytorch。(例如 cuda 11.7 torch 2.0.0)。我们已成功在 cuda 11.1 torch 1.10.1 和 cuda 11.7 torch 2.0.0 上运行此代码。你可以参考 PyTorch 的文档, 最新 或 以前。
- 你可以通过
conda env create -f environment.yml
安装,特别是要确保transformers>=4.28.0
,accelerate>=0.18.0
。
配置环境后,你可以只用几行代码将 🦩 Flamingo 模型 / 🦦 Otter 模型作为 🤗 Hugging Face 模型 使用!一键点击,模型配置/权重将自动下载。请参阅 Huggingface Otter/Flamingo 以了解详情。
☄️ 训练
Otter 基于 OpenFlamingo 进行训练。你可能需要使用在 luodian/OTTER-9B-INIT 或 luodian/OTTER-MPT7B-Init 上转换的权重。它们分别从 OpenFlamingo-LLaMA7B-v1 和 OpenFlamingo-MPT7B-v2 转换而来,我们为 Otter 的下游指令调整添加了 <answer>
标记。
你也可以使用任何训练过的 Otter 权重在我们的基础上开始训练,请参阅 Otter Weights 以了解更多详情。可以参考 MIMIC-IT 以准备图像/指令/训练 json 文件。
export PYTHONPATH=. RUN_NAME="Otter_MPT7B" GPU=8 WORKERS=$((${GPU}*2)) echo "Using ${GPU} GPUs and ${WORKERS} workers" echo "Running ${RUN_NAME}" accelerate launch --config_file=./pipeline/accelerate_configs/accelerate_config_zero3.yaml \ --num_processes=${GPU} \ pipeline/train/instruction_following.py \ --pretrained_model_name_or_path=luodian/OTTER-MPT7B-Init \ --model_name=otter \ --instruction_format=simple \ --training_data_yaml=./shared_scripts/Demo_Data.yaml \ --batch_size=8 \ --num_epochs=3 \ --report_to_wandb \ --wandb_entity=ntu-slab \ --external_save_dir=./checkpoints \ --run_name=${RUN_NAME} \ --wandb_project=Otter_MPTV \ --workers=${WORKERS} \ --lr_scheduler=cosine \ --learning_rate=2e-5 \ --warmup_steps_ratio=0.01 \ --save_hf_model \ --max_seq_len=1024 \
📑 引用
如果你觉得此仓库有用,请考虑引用:
@article{li2023otter,
title={Otter: A Multi-Modal Model with In-Context Instruction Tuning},
author={Li, Bo and Zhang, Yuanhan and Chen, Liangyu and Wang, Jinghao and Yang, Jingkang and Liu, Ziwei},
journal={arXiv preprint arXiv:2305.03726},
year={2023}
}
@article{li2023mimicit,
title={MIMIC-IT: Multi-Modal In-Context Instruction Tuning},
author={Bo Li and Yuanhan Zhang and Liangyu Chen and Jinghao Wang and Fanyi Pu and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2023},
eprint={2306.05425},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
👨🏫 致谢
感谢 Jack Hessel 的建议和支持,以及 OpenFlamingo 团队对开源社区的巨大贡献。
巨大的赞誉献给 Flamingo 和 OpenFlamingo 团队在这一伟大架构上的杰出工作。
📝 相关项目
编辑推荐精选


Manus
全面超越基准的 AI Agent助手
Manus 是一款通用人工智能代理平台,能够将您的创意和想法迅速转化为实际成果。无论是定制旅行规划、深入的数据分析,还是教育支持与商业决策,Manus 都能高效整合信息,提供精准解决方案。它以直观的交互体验和领先的技术,为用户开启了一个智慧驱动、轻松高效的新时代,让每个灵感都能得到完美落地。


飞书知识问答
飞书官方推出的AI知识库 上传word pdf即可部署AI私有知识库
基于DeepSeek R1大模型构建的知识管理系统,支持PDF、Word、PPT等常见文档格式解析,实现云端与本地数据的双向同步。系统具备实时网络检索能力,可自动关联外部信 息源,通过语义理解技术处理结构化与非结构化数据。免费版本提供基础知识库搭建功能,适用于企业文档管理和个人学习资料整理场景。


Trae
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

酷表ChatExcel
大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


DeepEP
DeepSeek开源的专家并行通信优化框架
DeepEP是一个专为大规模分布式计算设计的通信库,重点解决专家并行模式中的通信瓶颈问题。其核心架构采用分层拓扑感知技术,能够自动识别节点间物理连接关系,优化数据传输路径。通过实现动态路由选择与负载均衡机制,系统在千卡级计算集群中维持稳定的低延迟特性,同时 兼容主流深度学习框架的通信接口。


DeepSeek
全球领先开源大模型,高效智能助手
DeepSeek是一家幻方量化创办的专注于通用人工智能的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是开源的推理模型,擅长处理复杂任务且可免费商用。


KnowS
AI医学搜索引擎 整合4000万+实时更新的全球医学文献
医学领域专用搜索引擎整合4000万+实时更新的全球医学文献,通过自主研发AI模型实现精准知识检索。系统每日更新指南、中英文文献及会议资料,搜索准确率较传统工具提升80%,同时将大模型幻觉率控制在8%以下。支持临床建议生成、文献深度解析、学术报告制作等全流程科研辅助,典型用户反馈显示每周可节省医疗工作者70%时间。


Windsurf Wave 3
Windsurf Editor推出第三次重大更新Wave 3
新增模型上下文协议支持与智能编辑功能。本次更新包含五项核心改进:支持接入MCP协议扩展工具生态,Tab键智能跳转提升编码效率,Turbo模式实现自动化终端操作,图片拖拽功能优化多模态交互,以及面向付费用户的个性化图标定制。系统同步集成DeepSeek、Gemini等新模型,并通过信用点数机制实现差异化的资源调配。


腾讯元宝
腾讯自研的混元大模型AI助手
腾讯元宝是腾讯基于自研的混元大模型推出的一款多功能AI应用,旨在通过人工智能技术提升用户在写作、绘画、翻译、编程、搜索、阅读总结等多个领域的工作与生活效率。


Grok3
埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型
Grok3 是由埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型,常被马斯克称为“地球上最聪明的 AI”。它不仅是在前代产品 Grok 1 和 Grok 2 基础上的一次飞跃,还在多个关键技术上实现了创新突破。
推荐工具精选
AI云服务特惠
懂AI专属折扣关注微信公众号
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号