技术解释和底层技术

3DGS的原理是基于对高斯基元的数学建模和高效的 GPU光栅化算法的结合。

是基于Splatting和机器学习的三维重建方法

  • 无深度学习
  • 简单的机器学习
  • 大量的 CG
  • 复杂的线性代数
  • 对 GPU 的高性能编程

数学建模:每个高斯基元像是一个“带有颜色的半透明椭球体”,由中心位置(μ)、协方差矩阵(Σ,定义形状和方向)、不透明度(α)以及颜色(通过球谐函数 SH 系数建模,以捕捉视角相关的光影变化)组成。

协方差分解:为确保物理有效性,协方差矩阵被分解为旋转矩阵 R(四元数)和缩放矩阵 S,即 Σ=RSSTRT

渲染流水线:核心在于可微分光栅化。它将3D高斯基元投影到2D图像平面上,形成椭圆区域(即“泼溅”过程),随后利用基于图块(Tile-based)的 Alpha 混合技术进行深度排序并合成像素颜色。

自适应密度控制:在训练中,系统会动态地对高斯集合进行致密化(对梯度大的区域进行克隆或分裂)和修剪(移除透明或尺寸异常的基元),使模型从稀疏点云逐渐“生长”出精细结

image-20260107160045681

详细技术

Splatting是什么(把雪球打在墙上)

Splatting:一种体渲染的方法,从3D物体渲染到2D平面

  • Ray-casting是被动的(NeRF):计算出每个像素点受到发光粒子的影响来生成图像

  • Splatting是主动的:计算出每个发光粒子如何影响像素点。

过程:

  1. 选择【雪球】
    1. 点云是空间上带有位置信息的一些孤立的点,没有体积,形状、大小;可以选择高斯椭圆、正方形、圆
    2. 这个技术选择的是高斯椭圆,高斯概率在高维的时候是一个实心椭球体
  2. 拋掷雪球:从3D投影到2D,得到足迹image-20260107155435094
  3. 观测变换:从世界坐标系到相机坐标系
  4. 投影变换:正交投影,与z无关,无深度,透视投影,与z相关,有深度image-20260107155032500
  5. 视口变换:把二维平面坐标缩放到像素网格
  6. 光栅化:连续空间到离散空间的采样image-20260107155333678
  7. 加以合成,形成最后的图像

发展历程

传统阶段:长期使用**摄影测量(Photogrammetry)**技术,通过特征匹配和三角测量构建点云和网格模型。

神经渲染阶段(2020-2022):**神经辐射场(NeRF)**的出现革新了场景表示,通过隐式连续函数实现高质量新视角合成,但受限于密集的神经网络查询,渲染速度慢且训练耗时。

3DGS 时代(2023至今):2023年由 Kerbl 等人提出。它抛弃了 NeRF 的神经网络查询,转而使用显式的高斯函数和光栅化技术,将渲染速度提升至实时级别(>30 FPS),并将训练时间从数天缩短至数十分钟。

现阶段难题

尽管 3DGS 优势显著,但仍面临以下挑战:

存储与显存开销:大规模场景会产生数千万个高斯点,占用数 GB 甚至数十 GB 的内存空间。

几何结构缺失:由于 3DGS 是纯图形学表示,缺乏明确的顶点、边和面(网格),难以直接用于物理碰撞检测或精确的几何编辑。

材质建模不足:对复杂材质(如镜面反射)和动态光照条件的模拟精度仍有待提高。

伪影问题:在输入图像有限或背景分辨率较低时,容易出现“爆裂”(popping)现象或悬浮伪影。

适用方向

  • 虚拟漫游与数字化身:创建高度真实的学校、博物馆或城市的“数字孪生”。
  • 远程协作与视频会议:通过 3D 环境提供超越 2D 界面的沉浸感,使参与者仿佛身处同一空间。

航拍建模与 GIS:结合民用无人机快速生成大范围城市或地形的高保真模型。

电影与游戏资产:作为虚拟背景或高质量 3D 内容生成的底层技术

技术对比:3DGS vs. 虚拟展厅 (WebGL/Three.js) vs. 720 全景

特性 3D 高斯泼溅 (3DGS) 虚拟展厅 (WebGL/Three.js 网格) 720 全景技术
表示方式 显式高斯基元(点云状) 结构化多边形网格(Mesh) 球面全景投影(2D 图像)
视觉效果 照片级真实感,能完美还原复杂光影和半透明材质 依赖贴图和光照计算,实时渲染下常有“合成感” 真实感取决于原片,但视角受限,缺乏视差感
交互性 支持自由路径移动,视角平滑连续 支持碰撞检测和物体交互,逻辑控制成熟 通常只能在预定点位跳转,视角切换非空间移动
性能消耗 对 GPU 要求较高,显存占用大 经过 LOD 优化后对中低端硬件更友好 极低,普通移动端即可流畅运行
编辑难度 难以精确编辑几何形状(如改动墙面) 极易编辑,支持在各类 3D 软件中操作 无法进行三维编辑,仅能修改像素

核心优势

  • 实时性与高保真平衡:在保持 NeRF 级画质的同时,实现了超实时渲染(>100 FPS),移除了对高端 VR 头显的依赖,仅靠浏览器即可运行。

训练高效:训练周期从传统神经渲染的数小时/天缩短至几十分钟。

采集简便:支持利用手机或普通摄像头采集 2D 数据并快速生成高质量 3D 场景。

浏览器友好:通过 Three.js 包装器或专门的渲染引擎(如 PlayCanvas),可轻松集成到 WebGL 网页中,实现跨平台部署。

形象比喻: 如果把720全景比作一张只能站在圆心看的全方位贴画,**虚拟展厅(网格)**高斯泼溅就像是一团由无数个“带有颜色和透明度的云朵”汇聚而成的幻影——它看起来几乎和现实一模一样,你可以穿梭其中,但当你试图去推一下它的墙壁时,你会发现它并没有实体的砖块。