#开放词汇

CoDet - 共现引导的开放词汇目标检测方法
CoDet目标检测开放词汇图像文本对齐深度学习Github开源项目
CoDet是一种开放词汇目标检测方法,采用共现引导来对齐区域和词语。该方法利用大规模图像-文本对训练,在LVIS和COCO数据集上表现优异。CoDet兼容现代视觉基础模型,并可与Roboflow集成实现自动图像标注。这一方法为开放词汇目标检测领域提供了新的解决方案。
3D-OVS - 无需标注的开放词汇3D场景分割新方法
3D分割开放词汇弱监督学习TensoRFCLIP特征Github开源项目
3D-OVS是一种创新的弱监督3D开放词汇分割方法,仅依靠文本描述即可实现3D场景的精准分割。该技术融合TensoRF重建与CLIP特征提取,通过提示工程和DINO特征优化,提高了3D场景的语义理解能力。这一方法将3D视觉与自然语言处理有机结合,为多个领域的应用提供了新的可能性。
Awesome-Open-Vocabulary-Semantic-Segmentation - 开放词汇语义分割研究成果汇总
开放词汇语义分割计算机视觉深度学习CLIPGithub开源项目
这是一个汇总开放词汇语义分割领域研究成果的项目。内容涵盖全监督、弱监督和无需训练等多种方法,同时收录零样本语义分割、指代图像分割和开放词汇目标检测等相关任务的论文。项目旨在为研究者提供该领域的最新进展概览。
YOLO-World - 下一代实时开放词汇目标检测模型
YOLO-World目标检测开放词汇预训练模型零样本学习Github开源项目
YOLO-World是一款创新的实时开放词汇目标检测模型。经过大规模数据集预训练,它展现出卓越的开放词汇检测和定位能力。采用'先提示后检测'范式,YOLO-World通过重参数化技术实现高效的自定义词汇推理。该模型支持零样本目标检测、分割等多种任务,并开源了在线演示、预训练权重和微调代码,为计算机视觉领域提供了实用的研究与应用工具。
CLIPSelf - 视觉Transformer自蒸馏实现开放词汇密集预测
CLIPSelf视觉Transformer开放词汇密集预测COCOGithub开源项目
CLIPSelf项目提出创新自蒸馏方法,使视觉Transformer能进行开放词汇密集预测。该方法利用模型自身知识蒸馏,无需标注数据,提升了目标检测和实例分割等任务性能。项目开源代码和模型,提供详细训练测试说明,为计算机视觉研究提供重要资源。