#Vision-Language Model

open_flamingo - 开源多任务视觉语言模型，支持图像文本生成和多模态训练

OpenFlamingoVision-Language ModelPyTorchDeepMindMultimodalGithub开源项目

该项目提供了DeepMind Flamingo的PyTorch开源实现，用于训练和评估多任务视觉语言模型。OpenFlamingo处理多模态数据集，通过跨模态注意力层结合预训练视觉编码器和语言模型，实现图像和文本条件下的文本生成。用户可通过详细的安装和使用指南快速上手，并访问多个预训练模型和权重。项目欢迎社区贡献和反馈，支持多种语言和视觉编码器，适用于多种应用场景。

prismer - 集成多任务专家的先进视觉语言模型

PrismerPrismerZHuggingfacePyTorchVision-Language ModelGithub开源项目

Prismer 是一款集成多任务专家的视觉语言模型，适用于图像标注和视觉问答任务。基于PyTorch 1.13，实现了与Huggingface工具的深度融合，支持多节点和多GPU训练。模型支持包括COCO 2014和Visual Genome在内的多个数据集进行预训练和微调，提供Prismer和PrismerZ多个版本的模型检查点。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号