LLMGA简介
LLMGA(Multimodal Large Language Model-based Generation Assistant)是一个基于多模态大语言模型的图像生成和编辑助手,由香港中文大学和商汤科技联合开发,已被ECCV 2024接收为Oral论文。LLMGA充分利用大语言模型的知识储备和推理能力,通过对话交互方式帮助用户生成和编辑图像,实现了文本生成图像、图像修复、图像扩展、基于指令的图像编辑等多种功能。
代码资源
LLMGA的官方代码仓库地址为: https://github.com/dvlab-research/LLMGA
该仓库包含了LLMGA的训练和推理代码,以及详细的使用说明。
预训练模型
LLMGA提供了多个预训练模型,支持不同的基础语言模型和功能:
-
MLLM模型(支持英文):
- llmga-vicuna 7b
- llmga-mistral 7b
- llmga-llama3 8b
- 更多模型见GitHub仓库
-
MLLM模型(支持中英文):
- llmga-cn-vicuna 7b
- llmga-cn-llama3 8b
- 更多模型见GitHub仓库
-
SD模型:
数据集
LLMGA的训练数据集可在以下链接获取: https://huggingface.co/datasets/binxia/LLMGA-datasetv2
该数据集包含了用于训练LLMGA的文本和图像数据。
相关论文
LLMGA的技术细节可参考以下论文:
Xia, B., Wang, S., Tao, Y., Wang, Y., & Jia, J. (2024). LLMGA: Multimodal Large Language Model based Generation Assistant. ECCV 2024.
论文链接:https://arxiv.org/pdf/2311.16500.pdf
示例与演示
LLMGA提供了在线演示页面,可以直接体验其功能: https://llmga.github.io/
总结
LLMGA作为一个强大的多模态图像生成与编辑工具,为研究人员和开发者提供了丰富的学习资源。通过上述代码、模型、数据集等资源,读者可以深入了解LLMGA的工作原理,并将其应用到自己的项目中。希望本文的资源汇总能够帮助大家更好地学习和使用LLMGA。