HorNet 项目介绍
HorNet 是一个由多个研究人员共同创建的计算机视觉项目,该项目旨在通过递归门控卷积实现高效的高阶空间交互。该项目主要由研究人员 Yongming Rao、Wenliang Zhao、Yansong Tang、Jie Zhou、Ser-Nam Lim 和 Jiwen Lu 联合推出,并在 2022 年的 NeurIPS 大会上展示。HorNet 为计算机视觉领域提供了一套通用的视觉骨干网络,这些网络能够以高效的方式在图像上进行复杂的空间交互。
模型库
HorNet 提供了一系列在不同数据集上训练的模型,以应对多样的机器视觉任务。主要包括在 ImageNet-1K 和 ImageNet-22K 数据集上训练的模型。以下是一些主要模型的性能指标:
ImageNet-1K 训练模型
- HorNet-T (7x7):参数量 22M,运算量 4.0G,Top-1 准确率为 82.8。
- HorNet-T (GF):参数量 23M,运算量 3.9G,Top-1 准确率为 83.0。
- HorNet-S (7x7):参数量 50M,运算量 8.8G,Top-1 准确率为 83.8。
- HorNet-S (GF):参数量 50M,运算量 8.7G,Top-1 准确率为 84.0。
- HorNet-B (7x7):参数量 87M,运算量 15.6G,Top-1 准确率为 84.2。
- HorNet-B (GF):参数量 88M,运算量 15.5G,Top-1 准确率为 84.3。
ImageNet-22K 训练模型
- HorNet-L (7x7):参数量 209M,运算量 34.8G。
- HorNet-L (GF):参数量 211M,运算量 34.7G。
- *HorNet-L (GF) **:参数量 216M,运算量 101.8G,经过 384x384 分辨率微调。
图像分类和下游任务
HorNet 提供了详细的训练和评估过程文档,用于在 ImageNet 数据集上进行图像分类任务。用户可以通过设定相关参数,运行相应的 Python 脚本,对 HorNet 模型进行验证和训练。
在下游任务中,HorNet 也表现出色,尤其是在 3D 对象分类任务中。它可通过新框架 P2P 充分利用预训练图像模型进行点云理解,从而实现最先进的表现。
许可证和致谢
HorNet 使用 MIT 许可证发布,其代码基于多种开源项目。在开发过程中,他们感谢 High-Flyer AI Research 提供了部分计算资源的慷慨支持。
通过这些详细的数据和信息,HorNet 项目为行业提供了一种创新的方法来解决复杂视觉任务,值得在多个研究和应用场合中进行深入研究和使用。