Project Icon

CapsFusion

创新的大规模图像描述生成框架

CapsFusion是一个用于生成高质量图像描述的创新框架。该项目结合大型语言模型,融合真实和合成图像-文本对,解决了大规模多模态模型训练中的可扩展性和知识保留问题。CapsFusion提供120M数据集、模型和分布式推理代码,为多模态预训练研究提供重要资源。

CapsFusion是一个简单且可扩展的框架,用于为图像-文本对生成高质量的描述。该框架利用大型语言模型(LLMs)有机地结合了真实图像-文本对和由描述模型生成的合成描述的优势,以解决使用合成描述训练的大型多模态模型(LMMs)中严重的可扩展性不足世界知识损失问题。

🚀 新闻

  • 2024年2月27日:CapsFusion被CVPR 2024接收!🎉🍻
  • 2024年1月9日:发布CapsFusion 120M描述数据。
  • 2023年11月29日:发布CapsFus-LLaMA模型和分布式推理代码。

数据

我们发布了CapsFusion-120M数据集,这是一个用于大规模多模态预训练的高质量资源。本次发布包括来自LAION-2B和LAION-COCO数据集的相应描述,以便进行比较分析和对图像-文本数据质量进行进一步深入研究。

该数据集可以从🤗Huggingface下载。每个数据条目有四个字段:

  • 图像URL
  • LAION-2B描述(来自网络的原始alt文本)
  • LAION-COCO描述(由BLIP合成)
  • CapsFusion描述(我们的)

我们提供了一段代码片段来说明从给定的parquet文件中提取描述数据的过程,该代码打印前三个条目的urllaion_2blaion_cococapsfusion描述:

import pandas as pd
data = pd.read_parquet("capsfusion_1.parquet")
for idx, item in d.iterrows():
    print(f"{item['image_url']=}")
    print(f"{item['laion_2b']=}")
    print(f"{item['laion_coco']=}")
    print(f"{item['capsfusion']=}")
    print('\n')
    
    if idx == 2:
        break

请注意,由于我们无法将所有描述与其对应的图像URL配对,发布的描述总数为1.13亿。但我们预计,使用此数据集训练所达到的性能将与使用全部1.2亿描述训练的性能相当。

模型使用

我们在下面提供了使用CapsFus-LLaMA模型生成CapsFusion描述的说明,给定LAION-2B的原始描述和LAION-COCO的合成描述。

安装

pip install -r requirements.txt

数据格式

我们在./data/example_data.json中提供了10,000个样本。您可以以类似的结构组织自己的数据。每个样本具有以下结构,包含来自LAION-2B和LAION-COCO的描述:

{
  "laion_2b": ..., 
  "laion_coco": ..., 
}

我们还在./data/example_data.json中为每个样本附加了一个capsfusion_official项,这是由CapsFus-LLaMA生成的CapsFusion描述。

推理

torchrun --nnodes 1 --nproc_per_node 8 capsfusion_inference.py

使用8张A100-40G GPU,大约需要20分钟来优化10,000个样本。您可以根据可用的GPU更改nnodesnproc_per_node的值。

CapsFus-LLaMA模型将自动从huggingface下载。您也可以从这个huggingface模型仓库手动下载模型,并将config.yaml中的model_name更改为您的本地模型目录路径。

结果文件将保存在./data中。

示例

以下是CapsFusion生成的示例:➀ 真实的基于网络的描述(来自LAION-2B,包含噪声),➁ 合成描述(来自LAION-COCO,由BLIP生成,在语法和语义上较为简单),以及它们对应的 ③ CapsFusion描述。

来自原始描述的知识(蓝色)和来自合成描述的信息(黄色)被有机地融合到完整的CapsFusion描述中。更多描述和详细分析可以在我们的论文中找到。

在CapsFusion描述上训练的模型展现了丰富的真实世界知识(如下图所示),同时在基准评估中优于真实和合成描述(详细信息可在论文中找到)。

计划

请继续关注即将发布的内容。感谢您的理解。

  • CapsFus-LLaMA模型及分布式推理代码

  • CapsFusion-10M子集:包含原始(来自LAION-2B)、合成(来自LAION-COCO)和CapsFusion描述的图像

  • CapsFusion-120M完整集:带有CapsFusion描述的图像URL

参考文献

CapsFusion: Rethinking Image-Text Pairs at Scale -- https://arxiv.org/abs/2310.20550

@article{yu2023capsfusion,
  title={CapsFusion: Rethinking Image-Text Data at Scale},
  author={Yu, Qiying and Sun, Quan and Zhang, Xiaosong and Cui, Yufeng and Zhang, Fan and Cao, Yue and Wang, Xinlong and Liu, Jingjing},
  journal={arXiv preprint arXiv:2310.20550},
  year={2023}
}

致谢

部分代码改编自AlpacaFastChat。感谢他们的出色工作。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

问小白

问小白是一个基于 DeepSeek R1 模型的智能对话平台,专为用户提供高效、贴心的对话体验。实时在线,支持深度思考和联网搜索。免费不限次数,帮用户写作、创作、分析和规划,各种任务随时完成!

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

Trae

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号