相关项目
pix2struct
Pix2Struct是一个基于截图解析的视觉语言预训练模型。该模型可处理图像描述、图表问答和界面元素理解等多种任务。项目提供预训练的Base和Large模型检查点,以及9个下游任务的微调代码。Pix2Struct在多个视觉语言任务中表现优异,为相关研究提供了有力支持。
pix2struct-base
Pix2Struct是一种预训练的图像-文本模型,专用于多种任务,如图像字幕生成和视觉问答。该模型通过解析网页截图为简化HTML进行预训练,在文档、插图、用户界面和自然图像领域实现出色性能,灵活整合语言和视觉输入。
blip-itm-base-flickr
BLIP通过生成并过滤图像描述,有效地增强了视觉与语言结合任务的能力,如图像文本检索、图像描述生成和视觉问答。其在实际应用中的优异表现及对视频语言任务的零样本迁移能力,使其成为研究人员的理想工具。