#OWL-ViT
owlvit-base-patch32 - OWL-ViT:基于CLIP的开放词汇目标检测模型
模型目标检测Github零样本学习开源项目HuggingfaceCLIP计算机视觉OWL-ViT
OWL-ViT是一种基于CLIP的目标检测模型,专注于开放词汇和零样本检测任务。它结合了ViT结构的视觉编码器和因果语言模型的文本编码器,通过端到端训练实现了灵活的文本条件目标检测。该模型支持单一或多个文本查询,能够在未见过的类别上进行定位和分类,为计算机视觉领域的研究提供了新的工具和方向。
owlvit-large-patch14 - 基于Vision Transformer的零样本目标检测模型
模型零样本学习视觉变换器开源项目多模态模型Huggingface物体检测GithubOWL-ViT
OWL-ViT模型采用CLIP和Vision Transformer架构,实现了零样本文本条件目标检测。它可以根据文本查询识别图像中的物体,无需预先定义类别。该模型在大规模图像-文本数据集上进行训练,并在COCO和OpenImages等数据集上微调。OWL-ViT为计算机视觉研究提供了新的可能性,尤其在零样本目标检测领域。