#CVPR 2023

openscene - 零样本3D场景理解和任务执行工具

Github开源项目语义分割OpenScene3D场景理解CVPR 2023零样本

OpenScene是一个实时交互的3D场景理解工具，支持使用开放词汇进行查询。用户可输入任意短语，系统会自动高亮相应区域。支持多种数据集和预处理选项，可执行零样本3D语义分割、稀有物体搜索和基于图像的3D物体检测。其特点包括无需GPU运行、支持多视角特征融合和模型蒸馏。所有代码和数据集均可在GitHub获取，适用于广泛的研究和开发应用。

SDT - 生成可定制风格的在线和离线手写体

Github开源项目CVPR 2023SDT手写生成写作风格解耦在线中文手写

该项目提出了一种名为SDT的风格解缠变压器，可生成具有特定内容和风格的手写体。相较于现有的RNN方法，SDT能够区分书写者和字符的风格差异，提高模仿性能。此外，该项目还延伸至离线手写体生成，显著改进了中文离线手写体的生成质量。最近的更新包括发布教程和代码，支持用户自定义手写体风格合成，新方法One-DM也已被ECCV 2024接收。

DSVT - 易于部署的大规模点云3D对象检测系统

Github开源项目CVPR 2023DSVT3D对象检测Waymo动态稀疏体素转化器

DSVT是一款高效且易于部署的大规模点云3D对象检测系统，适用于Waymo和NuScenes等数据集。通过动态稀疏体素变换器和旋转集合分区策略，DSVT实现了27Hz的实时推理速度，提供了在单帧和多帧检测中的卓越表现，适用于自动驾驶等场景。

Collaborative-Diffusion - 多模态控制的面部生成与编辑，协作扩散模型

Github开源项目CVPR 2023Collaborative Diffusion多模态脸部生成脸部编辑MMLab@NTU

Collaborative Diffusion项目展示了如何通过多模态控制生成和编辑面部图像，保证生成结果与输入条件一致。该项目使用动态扩散器在每一步选择性处理不同模态，确保身份信息的准确性。最新更新包括对FreeU的支持、单模态面部生成推理脚本，以及适用于不同分辨率的模型训练和推理代码，满足多样化应用需求。

ImageBind - 跨模态AI模型实现六种感官数据的统一嵌入

Github开源项目ImageBind跨模态检索CVPR 2023零样本分类多模态嵌入

ImageBind是由Meta AI研发的AI模型，可将图像、文本、音频、深度、热感和IMU数据统一到单一嵌入空间。该模型支持跨模态检索、模态组合运算、检测和生成等应用，在多个零样本分类任务中表现良好。ImageBind为多模态AI研究提供了新思路，研究者可通过其开源的PyTorch实现和预训练模型进行进一步探索。

C2PNet - 物理感知单图像去雾的课程对比正则化方法

Github开源项目深度学习计算机视觉CVPR 2023图像去雾C2PNet

C2PNet是一种基于课程对比正则化的单图像去雾方法。该方法结合物理原理和深度学习技术，在SOTS室内和室外数据集上实现了领先性能。C2PNet的核心架构融合了课程学习和对比正则化策略，旨在提升去雾质量和模型泛化能力。项目开源了完整的训练和评估代码，便于研究者在不同数据集上进行实验和改进。

MP-Former - 基于mask-piloted机制的先进图像分割模型

Github开源项目Transformer图像分割CVPR 2023MP-FormerMask2Former

MP-Former是一种新型图像分割transformer模型，采用mask-piloted机制改进分割效果。项目包含训练和评估代码，适用于实例分割和全景分割任务。基于Mask2Former架构开发，在COCO数据集上展现出良好性能。项目提供了复现论文实验的脚本，为计算机视觉研究提供参考实现。MP-Former在CVPR 2023上发表，提供了no noise和all-layer MP训练设置，12轮训练后在实例分割任务上达到40.15 AP。项目代码开源，安装过程与Mask2Former相同，便于研究者快速上手和进行进一步探索。

IP_LAP - 基于身份保持的说话人脸生成新方法

Github开源项目深度学习计算机视觉CVPR 2023身份保持说话人脸生成

IP_LAP (Identity-Preserving Talking Face Generation with Landmark and Appearance Priors) 项目提出新型说话人脸生成方法，结合地标和外观先验实现身份保持。该技术在CVPR 2023发表，开源代码和预训练模型。研究团队使用LRS2数据集和PyTorch框架，在身份一致性和自然表情生成方面取得进展。

top-cvpr-2023-papers - CVPR 2023计算机视觉领域顶级论文精选汇总

Github开源项目GitHub计算机视觉论文arXivCVPR 2023

本项目整理了CVPR 2023会议的精选论文，涵盖图像分割、生成式AI和3D重建等热门研究方向。提供论文标题、GitHub仓库和arXiv链接，方便研究人员和开发者快速了解计算机视觉领域的最新进展。该资源汇总了CVPR 2023的重要贡献，为相关领域从业者提供了有价值的参考。

相关文章

Article Cover

OpenScene: 开放词汇的3D场景理解新方法

Article Cover

Collaborative Diffusion: 多模态人脸生成与编辑的突破性技术

Article Cover

ImageBind: 融合多模态数据的统一嵌入空间

Article Cover

C2PNet: 一种基于课程对比正则化的物理感知单图像去雾方法

Article Cover

IP_LAP: 身份保持的说话人脸生成技术

Article Cover

MP-Former: 革新图像分割的掩码引导transformer模型

Article Cover

CVPR 2023顶尖论文精选:计算机视觉领域的最新突破

Article Cover

OpenScene学习资料汇总-零样本3D场景理解方法

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号