Logo

#CVPR 2023

Logo of openscene
openscene
OpenScene是一个实时交互的3D场景理解工具,支持使用开放词汇进行查询。用户可输入任意短语,系统会自动高亮相应区域。支持多种数据集和预处理选项,可执行零样本3D语义分割、稀有物体搜索和基于图像的3D物体检测。其特点包括无需GPU运行、支持多视角特征融合和模型蒸馏。所有代码和数据集均可在GitHub获取,适用于广泛的研究和开发应用。
Logo of ImageBind
ImageBind
ImageBind是由Meta AI研发的AI模型,可将图像、文本、音频、深度、热感和IMU数据统一到单一嵌入空间。该模型支持跨模态检索、模态组合运算、检测和生成等应用,在多个零样本分类任务中表现良好。ImageBind为多模态AI研究提供了新思路,研究者可通过其开源的PyTorch实现和预训练模型进行进一步探索。
Logo of top-cvpr-2023-papers
top-cvpr-2023-papers
本项目整理了CVPR 2023会议的精选论文,涵盖图像分割、生成式AI和3D重建等热门研究方向。提供论文标题、GitHub仓库和arXiv链接,方便研究人员和开发者快速了解计算机视觉领域的最新进展。该资源汇总了CVPR 2023的重要贡献,为相关领域从业者提供了有价值的参考。
Logo of SDT
SDT
该项目提出了一种名为SDT的风格解缠变压器,可生成具有特定内容和风格的手写体。相较于现有的RNN方法,SDT能够区分书写者和字符的风格差异,提高模仿性能。此外,该项目还延伸至离线手写体生成,显著改进了中文离线手写体的生成质量。最近的更新包括发布教程和代码,支持用户自定义手写体风格合成,新方法One-DM也已被ECCV 2024接收。
Logo of C2PNet
C2PNet
C2PNet是一种基于课程对比正则化的单图像去雾方法。该方法结合物理原理和深度学习技术,在SOTS室内和室外数据集上实现了领先性能。C2PNet的核心架构融合了课程学习和对比正则化策略,旨在提升去雾质量和模型泛化能力。项目开源了完整的训练和评估代码,便于研究者在不同数据集上进行实验和改进。
Logo of DSVT
DSVT
DSVT是一款高效且易于部署的大规模点云3D对象检测系统,适用于Waymo和NuScenes等数据集。通过动态稀疏体素变换器和旋转集合分区策略,DSVT实现了27Hz的实时推理速度,提供了在单帧和多帧检测中的卓越表现,适用于自动驾驶等场景。
Logo of MP-Former
MP-Former
MP-Former是一种新型图像分割transformer模型,采用mask-piloted机制改进分割效果。项目包含训练和评估代码,适用于实例分割和全景分割任务。基于Mask2Former架构开发,在COCO数据集上展现出良好性能。项目提供了复现论文实验的脚本,为计算机视觉研究提供参考实现。MP-Former在CVPR 2023上发表,提供了no noise和all-layer MP训练设置,12轮训练后在实例分割任务上达到40.15 AP。项目代码开源,安装过程与Mask2Former相同,便于研究者快速上手和进行进一步探索。