fromage - 支持多模态输入输出的语言模型

项目介绍：FROMAGe

FROMAGe 项目旨在将语言模型与图像相结合，能够处理多模态的输入和输出。此项目已经开放了源代码和模型权重，研究人员和开发者可进一步研究和应用。

FROMAGe 模型的设计初衷是通过将语言模型与图像结合来实现多模态功能。模型可以读取文本与图像组合的输入，并生成相应的输出，这无疑扩大了模型的应用范围，比如图像描述、视觉问答等领域。通过框架搭建和模型训练，FROMAGe 实现了在处理复杂图片时提供更准确的响应能力。

为了运行 FROMAGe，开发者需要设置一个新的 Python 虚拟环境，并安装所需的库。具体步骤包括创建虚拟环境，激活后通过需求文件安装相关的 Python 依赖包。

安装好库后，还需将 fromage 库加入系统的 PYTHONPATH 中，以确保能够顺利导入相关模块。

FROMAGe 的模型权重较小，大约 11MB，已经包含在代码库中。预训练模型主要用来再现论文中报告的结果。此外，库中还提供了一个经过更强视觉层训练的模型，它能更好地表现对话场景。

为了实现图像检索功能，FROMAGe 使用了预计算的视觉嵌入。这些嵌入文件大约 3GB，可与我们提供的两种模型配置兼容。开发者可以下载这些文件，并将其放置于 fromage_model/ 文件夹中。

开发者可以使用 FROMAGe_example_notebook.ipynb 中提供的示例来进行模型推理。推理过程再现了论文中的一些图表，从而帮助理解模型的工作方式。

在训练方面，FROMAGe 使用 Conceptual Captions 数据集，并提供了详细的数据准备说明。开发者只需依据指引准备数据，即可启动新的训练任务。模型的训练在单张 A6000 GPU 上大约需要 24 小时完成。

模型中仅包含少量的预训练线性层和 [RET] 嵌入，因此可以在磁盘空间上进行权重的精简处理。项目中还提供用于本地测试的单元测试，确保代码可以正常运行。

项目中包含脚本，用于在 Visual Storytelling 和 VisDial 上再现结果。提供了 iPython 笔记本格式的脚本，方便开发者进行文本生成和图像检索的评估。

此外，FROMAGe 项目提供了一个 Gradio 演示，开发者可以通过简单地运行脚本或者使用 HuggingFace 的空间来本地启动演示应用。

FROMAGe 项目在 2023 年的 ICML 大会上发布，研究人员若对该工作感兴趣或使用此模型进行进一步研究，建议引用相关文献以表达认可和感谢。