近年来,Transformer架构在多模态感知任务中展现出了强大的通用性能。然而,作为深度学习领域另一重要支柱的卷积神经网络(ConvNet)在多模态任务中的表现却不尽如人意。最近,来自腾讯AI Lab和香港中文大学的研究团队提出了一种名为UniRepLKNet的新型ConvNet架构,不仅在图像识别任务上展现出了卓越性能,更令人惊喜的是,它还在音频、视频、点云和时间序列等多种模态任务中实现了统一的通用感知能力。
研究团队注意到,现有的大核ConvNet架构大多是简单地沿用其他模型的设计。他们认为,针对大核ConvNet的架构设计仍有很大的探索空间。同时,Transformer在多模态研究领域展现出的通用感知能力也引发了团队的思考:ConvNet是否也能通过统一的架构,在多个模态上实现通用的感知能力?
为了实现这一目标,研究团队提出了四项架构设计指导原则,其核心在于充分利用大核卷积区别于小核卷积的本质特征 - 能够在不增加网络深度的情况下获得更大的感受野。基于这些原则,UniRepLKNet展现出了以下亮眼特性:
在图像识别任务上实现了领先性能。例如,在ImageNet分类任务上达到88.0%的准确率,在COCO目标检测任务上达到56.4的AP,在ADE20K语义分割任务上达到55.6的mIoU。这些成绩都仅基于ImageNet-22K的预训练,且在实际速度和性能上超越了ConvNeXt v2和InternImage等最新模型。
通过统一的架构和简单的模态特定预处理,在音频识别任务上取得了最先进的性能。更令人惊讶的是,UniRepLKNet在全球温度和风速预测这一具有挑战性的大规模时间序列预测任务中,outperform了现有的全球预报系统。
UniRepLKNet不仅在图像识别等传统ConvNet擅长的领域实现了"回归",更在ConvNet原本不擅长的领域展现出了惊人的潜力。以下是UniRepLKNet在各个模态任务上的表现:
图像识别:在ImageNet-1K分类任务上,UniRepLKNet-XL模型达到88.0%的Top-1准确率,超越了多个基于Transformer和ConvNet的强大竞争对手。
目标检测:在COCO数据集上,UniRepLKNet-XL_22K模型实现了56.4的box AP和49.0的mask AP,展现出强大的物体检测和实例分割能力。
语义分割:在ADE20K数据集上,UniRepLKNet-XL_22K模型达到55.6的mIoU(多尺度测试),超越了InternImage等最新模型。
音频识别:在Speech Commands V2数据集上,UniRepLKNet取得了98.7%的准确率,超越了专门为音频任务设计的模型。
时间序列预测:在全球温度和风速预测挑战赛中,UniRepLKNet在均方误差(MSE)和平均绝对误差(MAE)指标上均优于现有的全球预报系统。
视频识别:在Kinetics-400数据集上,UniRepLKNet展现出与专门的视频模型相当的性能。
点云分析:在ModelNet-40数据集上,UniRepLKNet达到93.5%的准确率,接近专门的点云模型的表现。
这些结果充分证明了UniRepLKNet作为一个统一架构在多模态任务中的卓越表现和广泛适用性。
UniRepLKNet的核心组件包括LarK Block(大核块)和SmaK Block(小核块)。LarK Block由一个Dilated Reparam Block(扩张重参数化块)、一个SE Block(挤压激励块)、一个FFN(前馈网络)和Batch Normalization层组成。SmaK Block与LarK Block的唯一区别在于使用深度可分离3×3卷积替代了Dilated Reparam Block。
研究团队还提供了高效的PyTorch实现,包括基于iGEMM算法和cutlass工具的大核卷积 实现,这比原生的torch.nn.Conv2d更高效。同时,他们也提供了详细的模型训练、评估和部署指南,方便其他研究者复现和应用UniRepLKNet。
UniRepLKNet的提出不仅标志着ConvNet在其传统领域的"回归",更展示了大核ConvNet在"征服"新领域方面的潜力,凸显了其在不同模态和任务中的适应性和广泛实用性。这项研究为未来的多模态AI系统设计提供了新的思路,有望推动更加通用和高效的人工智能模型的发展。
作为一个开源项目,UniRepLKNet的代码和预训练模型已在GitHub上公开发布,研究团队鼓励社区进行进一步的探索和改进。随着更多研究者的参与,我们有理由期待UniRepLKNet在更广泛的应用场景中发挥作用,为人工智能的发展做出更大贡献。
如果您发现UniRepLKNet对您的研究有帮助,请考虑引用以下论文:
@article{ding2023unireplknet,
title={UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition},
author={Ding, Xiaohan and Zhang, Yiyuan and Ge, Yixiao and Zhao, Sijie and Song, Lin and Yue, Xiangyu and Shan, Ying},
journal={arXiv preprint arXiv:2311.15599},
year={2023}
}
UniRepLKNet的出现无疑为深度学习领域带来了新的活力和可能性。它不仅展示了ConvNet架构在多模态任务中的潜力,也为未来更加通用和高效的AI模型设计提供了宝贵的参考。随着这一领域的持续发展,我们有理由期待更多令人兴奋的突破和应用。🚀🌟
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
用于可扩展和多功能 3D 生成的结构化 3D 潜在表示
TRELLIS 是一个专注于 3D 生成的项目,它利用结构化 3D 潜在表示技术,实现了可扩展且多功能的 3D 生成。项目提供了多种 3D 生成的方法和工具,包括文本到 3D、图像到 3D 等,并且支持多种输出格式,如 3D 高斯、辐射场和网格等。通过 TRELLIS,用户可以根据文本描述或图像输入快 速生成高质量的 3D 资产,适用于游戏开发、动画制作、虚拟现实等多个领域。
10 节课教你开启构建 AI 代理所需的一切知识
AI Agents for Beginners 是一个专为初学者打造的课程项目,提供 10 节课程,涵盖构建 AI 代理的必备知识,支持多种语言,包含规划设计、工具使用、多代理等丰富内容,助您快速入门 AI 代理领域。
AI Excel全自动制表工具
AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。