全视计划
这是以下论文的官方实现:
"全视"一词源自"全知之眼",意味着对存在的所有方面有完整的知识、意识或洞察力。标志是千年积木,来自漫画《游戏王》中的神器。
新闻与更新 🚀🚀🚀
2024年7月1日
:全视计划 v2 被 ECCV 2024 接收!请注意,模型和数据已在 huggingface 上发布。2024年2月28日
:全视计划 v2 发布!我们的 ASMv2 在多种图像级和区域级任务中达到了最先进的性能!更多详情请参见这里。2024年2月21日
:ASM、AS-Core、AS-10M、AS-100M 已发布!2024年1月16日
:全视计划被 ICLR 2024 接收!2023年8月29日
:全视模型演示现已在 OpenXLab 上可用!
计划
- 发布 ASMv2 模型。
- 发布 AS-V2 数据集。
- 发布 ASM 模型。
- 发布 AS-1B 的完整版本。
- 发布 AS-Core,这是 AS-1B 的人工验证子集。
- 发布 AS-100M,这是 AS-1B 的 1 亿子集。
- 发布 AS-10M,这是 AS-1B 的 1000 万子集。
- 在线演示,包括数据集浏览器和 ASM 在线演示。
简介
全视计划 [论文][模型][数据集][代码][知乎][Medium]
全视 1B (AS-1B) 数据集:我们提出了一个新的大规模数据集(AS-1B),用于开放世界全景视觉识别和理解,使用了一种经济的半自动数据引擎,结合了现成视觉/语言模型的力量和人工反馈。
全视模型 (ASM):我们开发了一个统一的视觉-语言基础模型(ASM),用于开放世界全景视觉识别和理解。与大语言模型对齐,我们的 ASM 支持多样化的图像-文本检索和生成任务,展示了令人印象深刻的零样本能力。
全视计划 V2 [论文][模型][数据集][代码][知乎][Medium]
全视数据集 V2 (AS-V2) 数据集:我们提出了一个新的任务,称为关系对话(ReC),它统一了文本生成、对象定位和关系理解的形式。基于这种统一的形式,我们构建了 AS-V2 数据集,其中包含 12.7 万个高质量的关系对话样本,以解锁多模态大语言模型(MLLMs)的 ReC 能力。
全视模型 v2 (ASMv2):我们开发了 ASMv2,它整合了关系对话能力,同时保持强大的通用能力。它具备定位和指代能力,在区域级任务上表现出最先进的性能。此外,该模型可以自然地以开放式方式适应场景图生成任务。
基于循环的关系探测评估 (CRPE) 基准:我们构建了一个名为基于循环的关系探测评估(CRPE)的基准,这是第一个涵盖关系三元组 (主体, 谓词, 客体)
所有元素的基准,为关系理解能力的评估提供了一个系统的平台。
许可证
本项目基于 Apache 2.0 许可证 发布。
🖊️ 引用
如果您在研究中发现本项目有用,请考虑引用:
@article{wang2023allseeing,
title={The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World},
author={Wang, Weiyun and Shi, Min and Li, Qingyun and Wang, Wenhai and Huang, Zhenhang and Xing, Linjie and Chen, Zhe and Li, Hao and Zhu, Xizhou and Cao, Zhiguo and others},
journal={arXiv preprint arXiv:2308.01907},
year={2023}
}
@article{wang2024allseeing_v2,
title={The All-Seeing Project V2: Towards General Relation Comprehension of the Open World},
author={Wang, Weiyun and Ren, Yiming and Luo, Haowen and Li, Tiantong and Yan, Chenxiang and Chen, Zhe and Wang, Wenhai and Li, Qingyun and Lu, Lewei and Zhu, Xizhou and others},
journal={arXiv preprint arXiv:2402.19474},
year={2024}
}