Project Icon

splat

WebGL驱动的实时3D高斯泼溅渲染器

splat项目基于WebGL技术,实现了3D高斯泼溅的实时渲染。该渲染器可将一组图片转换为可交互的逼真3D场景,并在普通图形硬件上高效运行。支持键盘、鼠标和触摸等多种交互方式,用户可拖放.ply文件转换为.splat格式或通过URL参数加载自定义文件。项目采用渐进加载和异步排序等优化技术,提供流畅的3D场景浏览体验。作为轻量级WebGL实现,无需外部依赖即可运行。它采用CPU异步排序技术,优化了大规模点云数据的渲染效果。该项目还提供了多个预加载的3D模型示例,方便用户快速体验和测试。

这是一个基于 WebGL 的实时渲染器实现,用于 3D Gaussian Splatting for Real-Time Radiance Field Rendering。这是一种最近开发的从一系列照片生成可导航的逼真3D场景的技术。由于本质上是点云渲染的扩展,因此使用普通图形硬件进行渲染非常高效,与之前的类似技术如 NeRF 相比。

您可以在这里尝试使用

控制

移动(方向键)

  • 左/右方向键平移左右
  • 上/下方向键前后移动
  • 空格跳跃

镜头角度(WASD)

  • A/D 左右转动镜头
  • W/S 上下倾斜镜头
  • Q/E 顺/逆时针翻滚镜头
  • I/K 和 J/L 环绕

触控板

  • 上下滚动环绕下
  • 左右滚动环绕左右
  • 捏合放大缩小
  • Ctrl + 上下滚动前后移动
  • Shift + 上下滚动上下移动
  • Shift + 左右滚动平移

鼠标

  • 点击拖拽环绕
  • 右击(或 Ctrl/Cmd)拖动上下前后移动
  • 右击(或 Ctrl/Cmd)拖动左右平移

触摸(移动端)

  • 单指环绕
  • 双指捏合前后移动
  • 双指旋转顺/逆时针旋转
  • 双指平移左右上下移动

其他

  • 按 0-9 切换预设相机视角
  • 按 - 或 + 切换加载的相机
  • 按 P 恢复默认动画
  • 拖拽 .ply 文件转换为 .splat
  • 拖拽 cameras.json 加载相机

其他功能

  • 按 V 将当前视角保存到 URL
  • 通过在 URL 中添加 url 参数打开自定义 .splat 文件(要求 CORS 可访问)
  • 拖拽 .ply 文件(经过 3D 高斯溅射软件处理)到页面,会自动转换为 .splat 格式

示例

只要您的 .splat 文件托管在可访问的 CORS 服务器上,就可以通过 url 参数打开。

注释

  • 使用 JavaScript 和 WebGL 1.0 编写,无需任何外部依赖,您可以查看未经压缩的源代码。WebGL 2.0 并没有增加任何 WebGL 1.0 及其扩展无法完成的新功能。WebGPU 看起来不错,但支持度还有待提高。
  • 我们按照尺寸和不透明度的组合对 splat 进行排序,并支持渐进式加载,让您可以在所有 splat 加载完成之前就开始查看和交互。
  • 目前不支持基于球谐的观察依赖着色效果,这主要是为了减小 splat 格式的文件大小,以便于在 Web 浏览器中加载。对于三阶球谐,我们需要 48 个系数,这意味着每个 splat 将近 200 字节!
  • splat 排序在 CPU 上的 Web Worker 中异步进行。在 GPU 上使用 bitonic 或基数排序可能会很有趣,不过让 GPU 专注于渲染,而不是分散精力进行排序,可能会更好。
  • 早期的实验尝试使用了随机透明度加权混合顺序无关透明度,但效果不太理想。

词语解释

高斯 splat 渲染非常高效,因为它的工作方式与点云非常相似 - 事实上,它们使用相同的文件格式(.ply)并使用相同的工具进行打开(不过要在 Meshlab 中看到颜色,您应该先将球谐零阶项转换为 RGB 颜色)。您可以将它们视为将单个点推广为半透明的 3D 模糊体(即著名的 splat)。

尽管推理过程与传统 3D 渲染非常相似,但参考实现并没有利用任何这种特性,因为对于训练它需要整个渲染管道是可微分的(即您需要能够运行渲染过程"反向",以找出如何微调每个模糊体的位置、大小和颜色,使某个相机的视图逐步接近参考照片)。这种基于梯度的优化是否可以算作神经网络,这在网上似乎存在一些争议。

由于这个实现只是一个查看器,我们不需要进行任何可微分渲染。我们的一般方法是将每个 splat 馈送到顶点着色器。我们获取 splat 的 xyz 位置并使用投影矩阵将其投影到屏幕坐标,然后获取 splat 的缩放和四元数旋转参数,以确定投影的特征向量,从而可以绘制一个边界四边形。然后,这些四边形使用片段着色器单独着色。 片元着色器是一个程序,它本质上是为每个片元(即顶点着色器生成的四边形)运行,并输出一种颜色。它获取片元的位置,计算其与splat中心的距离,并使用该距离来确定splat颜色的不透明度通道。目前,这种实现仅存储splat的3个(红、蓝、绿)颜色通道,但完整的实现本质上使用48个通道来编码任意依赖视角的光照。

让这些片元组合起来创建一个实际的图像是最烦人的问题。事实证明,在计算机图形学中,渲染半透明物体是一个未解决的问题,这最终源于合成半透明物体是不可交换的,即半透明物体的堆栈外观取决于它们绘制的顺序。

一种简单的解决方案是称为推测性透明度的方法,其基本思想是假装根本没有半透明性 - 物体只是具有不同级别的随机瑞士奶酪。图形卡跟踪深度缓冲区,丢弃所有非最上层的像素,并在每个像素生成一个随机数,如果它90%的时间是90%透明的,则丢弃它。这种方法可以工作,但会给一切带来噪点和点杂的外观。

另一种简单的方法是使用画家算法,它基本上涉及在渲染之前对所有对象进行预排序。在CPU上执行此操作可能相当昂贵,在演示页面上使用大约100万个splat,在我的计算机上对它们进行排序需要大约150毫秒。

参考实现和大多数其他高斯splat实现采用的方法是在GPU上进行排序。在GPU上进行排序的一种常见算法是称为"比特钻石排序"的算法,因为它非常易于并行化。像快速排序/归并排序这样的正常CPU比较排序算法可以在O(nlogn)时间内运行,而比特钩排序稍慢,需要O(nlog²n)时间,但n因子可以并行完成,因此整体延迟为O(log²n),这比O(nlogn)更快。参考实现使用基于"onesweep"的基数排序,可以在O(n)时间内完成,因为可以利用您正在对数字进行排序的事实来在每个周期获得比单个比较更多的信息。

Chrome最近发布了WebGPU,这是一个全新的干净API,据称可以像CUDA一样编写计算着色器,可在浏览器中运行。但是,WebGPU目前还没有被Firefox和Safari支持。这意味着,如果我们想构建一个广泛可用的东西,我们必须坚持使用旧的WebGL(甚至可能是WebGL 1.0,因为有报告称WebGL 2.0在新的M1芯片上对Safari来说会有bug或较慢)。在WebGL上实现比特钻石排序仍然是可能的,但需要大约200次迭代才能对100万个数字进行排序,因此可能仍然太慢。

渲染半透明物体的另一种方法是深度剥离,其中启用深度缓冲区并仅渲染位于顶层的半透明对象,然后将该深度缓冲区反馈到渲染过程中,以"剥离"顶层并仅渲染下层,然后将这些半透明层叠加在一起以形成最终图像。我没能让这个方法工作,但它可能仍然会很慢。

另一种有趣的方法是称为"加权混合无序不透明度"的方法,它将一个额外的数字保存到一个不同的渲染缓冲区中,该数字用作近似半透明度的权重,这种方法是可交换的。在我的实验中,它并没有奏效,这在某种程度上是意料之中的,因为在某些splat彼此具有高不透明度的情况下。

我最终采用的方法是在CPU上的一个Web Worker中运行排序过程,这需要更长的时间(大约4fps,而主渲染为60fps),但这没关系,因为大多数时候当你移动时,z顺序实际上变化并不快(这会导致在完全相反的相机取向之间直接跳跃时出现暂时的伪像)。

人工智能编写WebGL样板代码的努力以及Otavio Good关于不同无序不透明度方法的讨论、Mikola Lysenko的regl以及对WebGL和WebGPU的有益建议、Ethan Weber关于NeRFs如何工作以及告诉我排序是很难的讨论、Gray Crawford关于颜色渲染和相机控制问题的识别,以及Anna Brewer在实现动画方面的帮助,在此表示感谢。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号