StreetCLIP项目介绍
项目概述
StreetCLIP是一个强大的基础模型,专注于开放域图像地理定位及其他与地理和气候相关的任务。它基于一个原创的110万张街景和乡村地理标记图像的数据集进行训练,在多个开放域图像地理定位基准测试中表现优异,即使是零样本情况下,也能超越许多使用百万张图像训练的监督模型。
模型描述
StreetCLIP通过从图像类标签中合成图像描述,使用特定领域的描述模板进行预训练。这使得StreetCLIP能够将其广泛的零样本学习能力转移到图像地理定位这个具体领域。该模型基于OpenAI的CLIP ViT大模型进行构建,使用14x14像素的图像块和336像素边长的图像。
模型细节
- 模型类型: CLIP
- 语言: 英语
- 许可证: 署名-非商业性使用 4.0 国际
- 训练基础模型: openai/clip-vit-large-patch14-336
文献来源
- 论文: 预印本
使用方式
StreetCLIP能够深刻理解城市和乡村街景中的视觉特征,并关联这些概念到特定的国家、地区和城市。根据其训练环境,推荐以下使用场景。
直接使用
StreetCLIP可以直接用于零样本学习,推断图像的国家、地区或城市级别的地理位置。基于StreetCLIP是通过街景和乡村图像数据集预训练的,在类似分布的图像上可以期望更好的性能。
下游应用
StreetCLIP可以微调用于任何需要地理或街景理解的下游应用,例如:
-
理解建筑环境
- 分析建筑质量、建筑类型分类、建筑能效分类
-
分析基础设施
- 分析道路质量、公用设施杆维护、识别自然灾害或武装冲突损坏
-
理解自然环境
- 植被绘图、植被分类、土壤类型分类、追踪森林砍伐
-
一般使用场景
- 街景图像分割、城市场景分类、城市或乡村环境中的物体检测、改进导航和自动驾驶技术
不适用的使用场景
任何试图对用户私密图像进行地理定位的使用场景都不在建议的范围内。
偏见、风险与限制
StreetCLIP并没有在社交媒体图像或识别出个人的图像上训练。因此,建议避免用于试图定位用户私密图像的应用。
环境影响
- 硬件类型: 4个NVIDIA A100 GPUs
- 使用时间: 12小时
引用格式
若引用StreetCLIP的技术细节,请使用以下BibTeX格式:
@misc{haas2023learning,
title={Learning Generalized Zero-Shot Learners for Open-Domain Image Geolocalization},
author={Lukas Haas and Silas Alberti and Michal Skreta},
year={2023},
eprint={2302.00275},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
通过对以上信息的说明,StreetCLIP成为了开放域图像地理定位中的一种重要工具,在技术和应用中都展现了巨大潜力。