CapsFusion:重新思考大规模图像-文本数据
于启莹1,2*,孙铨2*,张晓松2,崔宇峰2,张帆2
曹越3,王新龙2,刘静静1
1 清华大学AIR实验室,2 北京智源人工智能研究院,3 独立研究员
* 贡献相同
CapsFusion是一个简单且可扩展的框架,用于为图像-文本对生成高质量的描述。该框架利用大型语言模型(LLMs)有机地结合了真实图像-文本对和由描述模型生成的合成描述的优势,以解决使用合成描述训练的大型多模态模型(LMMs)中严重的可扩展性不足和世界知识损失问题。
🚀 新闻
2024年2月27日
:CapsFusion被CVPR 2024接收!🎉🍻2024年1月9日
:发布CapsFusion 120M描述数据。2023年11月29日
:发布CapsFus-LLaMA模型和分布式推理代码。
数据
我们发布了CapsFusion-120M数据集,这是一个用于大规模多模态预训练的高质量资源。本次发布包括来自LAION-2B和LAION-COCO数据集的相应描述,以便进行比较分析和对图像-文本数据质量进行进一步深入研究。
该数据集可以从🤗Huggingface下载。每个数据条目有四个字段:
- 图像URL
- LAION-2B描述(来自网络的原始alt文本)
- LAION-COCO描述(由BLIP合成)
- CapsFusion描述(我们的)
我们提供了一段代码片段来说明从给定的parquet文件中提取描述数据的过程,该代码打印前三个条目的url
、laion_2b
、laion_coco
和capsfusion
描述:
import pandas as pd
data = pd.read_parquet("capsfusion_1.parquet")
for idx, item in d.iterrows():
print(f"{item['image_url']=}")
print(f"{item['laion_2b']=}")
print(f"{item['laion_coco']=}")
print(f"{item['capsfusion']=}")
print('\n')
if idx == 2:
break
请注意,由于我们无法将所有描述与其对应的图像URL配对,发布的描述总数为1.13亿。但我们预计,使用此数据集训练所达到的性能将与使用全部1.2亿描述训练的性能相当。
模型使用
我们在下面提供了使用CapsFus-LLaMA模型生成CapsFusion描述的说明,给定LAION-2B的原始描述和LAION-COCO的合成描述。
安装
pip install -r requirements.txt
数据格式
我们在./data/example_data.json
中提供了10,000个样本。您可以以类似的结构组织自己的数据。每个样本具有以下结构,包含来自LAION-2B和LAION-COCO的描述:
{
"laion_2b": ...,
"laion_coco": ...,
}
我们还在./data/example_data.json
中为每个样本附加了一个capsfusion_official
项,这是由CapsFus-LLaMA生成的CapsFusion描述。
推理
torchrun --nnodes 1 --nproc_per_node 8 capsfusion_inference.py
使用8张A100-40G GPU,大约需要20分钟来优化10,000个样本。您可以根据可用的GPU更改nnodes
和nproc_per_node
的值。
CapsFus-LLaMA模型将自动从huggingface下载。您也可以从这个huggingface模型仓库手动下载模型,并将config.yaml
中的model_name
更改为您的本地模型目录路径。
结果文件将保存在./data
中。
示例
以下是CapsFusion生成的示例:➀ 真实的基于网络的描述(来自LAION-2B,包含噪声),➁ 合成描述(来自LAION-COCO,由BLIP生成,在语法和语义上较为简单),以及它们对应的 ③ CapsFusion描述。
来自原始描述的知识(蓝色)和来自合成描述的信息(黄色)被有机地融合到完整的CapsFusion描述中。更多描述和详细分析可以在我们的论文中找到。
在CapsFusion描述上训练的模型展现了丰富的真实世界知识(如下图所示),同时在基准评估中优于真实和合成描述(详细信息可在论文中找到)。
计划
请继续关注即将发布的内容。感谢您的理解。
-
CapsFus-LLaMA模型及分布式推理代码
-
CapsFusion-10M子集:包含原始(来自LAION-2B)、合成(来自LAION-COCO)和CapsFusion描述的图像
-
CapsFusion-120M完整集:带有CapsFusion描述的图像URL
参考文献
CapsFusion: Rethinking Image-Text Pairs at Scale -- https://arxiv.org/abs/2310.20550
@article{yu2023capsfusion,
title={CapsFusion: Rethinking Image-Text Data at Scale},
author={Yu, Qiying and Sun, Quan and Zhang, Xiaosong and Cui, Yufeng and Zhang, Fan and Cao, Yue and Wang, Xinlong and Liu, Jingjing},
journal={arXiv preprint arXiv:2310.20550},
year={2023}
}