Neuralangelo: 高保真度神经表面重建技术

Neuralangelo简介

Neuralangelo是NVIDIA Research团队开发的一种新型神经网络模型,用于高保真度的3D表面重建。该项目由Zhaoshuo Li、Thomas Müller、Alex Evans等多位研究人员共同完成,并在2023年的IEEE计算机视觉与模式识别会议(CVPR)上发表。

Neuralangelo的主要创新点在于:

结合了多分辨率3D哈希网格的表示能力与神经表面渲染技术。
使用数值梯度计算高阶导数,作为平滑操作。
对控制不同细节层级的哈希网格进行从粗到细的优化。

这些技术使Neuralangelo能够仅从多视角图像中,高效地重建出极其详细的3D表面结构,大幅超越了之前的方法。特别是在处理大规模场景时,Neuralangelo可以从RGB视频捕捉中重建出精细的3D结构。

Neuralangelo重建效果展示

Neuralangelo的工作原理

多分辨率3D哈希网格表示

Neuralangelo采用多分辨率的3D哈希网格来表示3D场景。这种表示方法允许模型在不同的空间尺度上捕捉场景细节,从而实现高保真度的重建。

神经表面渲染

结合神经表面渲染技术,Neuralangelo能够将3D表示投影到2D图像平面,实现从3D到2D的渲染过程。这使得模型可以通过比较渲染结果与真实图像来优化3D重建。

数值梯度与高阶导数

Neuralangelo创新性地使用数值梯度来计算高阶导数。这一技术充当了平滑操作的角色,有助于生成更加连续、平滑的表面。

从粗到细的优化策略

模型采用从粗到细的优化策略,逐步细化3D重建结果。这种方法使得Neuralangelo能够在保持全局一致性的同时,逐步增加局部细节。

Neuralangelo的主要特点

高保真度重建: Neuralangelo能够重建出极其精细的3D表面细节,远超过传统方法。
无需深度信息: 仅使用多视角RGB图像就能实现高质量重建,无需额外的深度信息输入。
大规模场景支持: 适用于大规模场景的重建,可以处理从视频中提取的长序列图像。
灵活性: 可以处理各种复杂的真实世界场景,如建筑物、雕塑等。
高效性: 通过优化的网络结构和训练策略,实现了较高的重建效率。

安装与使用

Neuralangelo提供了两种环境设置方式:

Docker镜像:
- docker.io/chenhsuanlin/colmap:3.8: 用于运行COLMAP和数据预处理脚本。
- docker.io/chenhsuanlin/neuralangelo:23.04-py3: 用于运行主要的Neuralangelo流程。

Conda环境:

conda env create --file neuralangelo.yaml
conda activate neuralangelo

数据准备与运行

数据准备:
- 需要提供已知相机姿态的多视角图像。
- 使用与Instant NGP相同的JSON格式存储数据。

运行Neuralangelo:

EXPERIMENT=toy_example
GROUP=example_group
NAME=example_name
CONFIG=projects/neuralangelo/configs/custom/${EXPERIMENT}.yaml
GPUS=1  # 多GPU训练时使用 >1
torchrun --nproc_per_node=${GPUS} train.py \
    --logdir=logs/${GROUP}/${NAME} \
    --config=${CONFIG} \
    --show_pbar

提取等值面网格:

CHECKPOINT=logs/${GROUP}/${NAME}/xxx.pt
OUTPUT_MESH=xxx.ply
CONFIG=logs/${GROUP}/${NAME}/config.yaml
RESOLUTION=2048
BLOCK_RES=128
GPUS=1
torchrun --nproc_per_node=${GPUS} projects/neuralangelo/scripts/extract_mesh.py \
    --config=${CONFIG} \
    --checkpoint=${CHECKPOINT} \
    --output_file=${OUTPUT_MESH} \
    --resolution=${RESOLUTION} \
    --block_res=${BLOCK_RES}