高斯泼溅技术
技术解释和底层技术
3DGS的原理是基于对高斯基元的数学建模和高效的 GPU光栅化算法的结合。
是基于Splatting和机器学习的三维重建方法
- 无深度学习
- 简单的机器学习
- 大量的 CG
- 复杂的线性代数
- 对 GPU 的高性能编程
◦ 数学建模:每个高斯基元像是一个“带有颜色的半透明椭球体”,由中心位置(μ)、协方差矩阵(Σ,定义形状和方向)、不透明度(α)以及颜色(通过球谐函数 SH 系数建模,以捕捉视角相关的光影变化)组成。
◦ 协方差分解:为确保物理有效性,协方差矩阵被分解为旋转矩阵 R(四元数)和缩放矩阵 S,即 Σ=RSSTRT。
◦ 渲染流水线:核心在于可微分光栅化。它将3D高斯基元投影到2D图像平面上,形成椭圆区域(即“泼溅”过程),随后利用基于图块(Tile-based)的 Alpha 混合技术进行深度排序并合成像素颜色。
◦ 自适应密度控制:在训练中,系统会动态地对高斯集合进行致密化(对梯度大的区域进行克隆或分裂)和修剪(移除透明或尺寸异常的基元),使模型从稀疏点云逐渐“生长”出精细结

详细技术
Splatting是什么(把雪球打在墙上)
Splatting:一种体渲染的方法,从3D物体渲染到2D平面
Ray-casting是被动的(NeRF):计算出每个像素点受到发光粒子的影响来生成图像
Splatting是主动的:计算出每个发光粒子如何影响像素点。
过程:
- 选择【雪球】
- 点云是空间上带有位置信息的一些孤立的点,没有体积,形状、大小;可以选择高斯椭圆、正方形、圆
- 这个技术选择的是高斯椭圆,高斯概率在高维的时候是一个实心椭球体
- 拋掷雪球:从3D投影到2D,得到足迹

- 观测变换:从世界坐标系到相机坐标系
- 投影变换:正交投影,与z无关,无深度,透视投影,与z相关,有深度

- 视口变换:把二维平面坐标缩放到像素网格
- 光栅化:连续空间到离散空间的采样

- 加以合成,形成最后的图像
发展历程
• 传统阶段:长期使用**摄影测量(Photogrammetry)**技术,通过特征匹配和三角测量构建点云和网格模型。
• 神经渲染阶段(2020-2022):**神经辐射场(NeRF)**的出现革新了场景表示,通过隐式连续函数实现高质量新视角合成,但受限于密集的神经网络查询,渲染速度慢且训练耗时。
• 3DGS 时代(2023至今):2023年由 Kerbl 等人提出。它抛弃了 NeRF 的神经网络查询,转而使用显式的高斯函数和光栅化技术,将渲染速度提升至实时级别(>30 FPS),并将训练时间从数天缩短至数十分钟。
现阶段难题
尽管 3DGS 优势显著,但仍面临以下挑战:
• 存储与显存开销:大规模场景会产生数千万个高斯点,占用数 GB 甚至数十 GB 的内存空间。
• 几何结构缺失:由于 3DGS 是纯图形学表示,缺乏明确的顶点、边和面(网格),难以直接用于物理碰撞检测或精确的几何编辑。
• 材质建模不足:对复杂材质(如镜面反射)和动态光照条件的模拟精度仍有待提高。
• 伪影问题:在输入图像有限或背景分辨率较低时,容易出现“爆裂”(popping)现象或悬浮伪影。
适用方向
- 虚拟漫游与数字化身:创建高度真实的学校、博物馆或城市的“数字孪生”。
- 远程协作与视频会议:通过 3D 环境提供超越 2D 界面的沉浸感,使参与者仿佛身处同一空间。
• 航拍建模与 GIS:结合民用无人机快速生成大范围城市或地形的高保真模型。
• 电影与游戏资产:作为虚拟背景或高质量 3D 内容生成的底层技术
技术对比:3DGS vs. 虚拟展厅 (WebGL/Three.js) vs. 720 全景
| 特性 | 3D 高斯泼溅 (3DGS) | 虚拟展厅 (WebGL/Three.js 网格) | 720 全景技术 |
|---|---|---|---|
| 表示方式 | 显式高斯基元(点云状) | 结构化多边形网格(Mesh) | 球面全景投影(2D 图像) |
| 视觉效果 | 照片级真实感,能完美还原复杂光影和半透明材质 | 依赖贴图和光照计算,实时渲染下常有“合成感” | 真实感取决于原片,但视角受限,缺乏视差感 |
| 交互性 | 支持自由路径移动,视角平滑连续 | 支持碰撞检测和物体交互,逻辑控制成熟 | 通常只能在预定点位跳转,视角切换非空间移动 |
| 性能消耗 | 对 GPU 要求较高,显存占用大 | 经过 LOD 优化后对中低端硬件更友好 | 极低,普通移动端即可流畅运行 |
| 编辑难度 | 难以精确编辑几何形状(如改动墙面) | 极易编辑,支持在各类 3D 软件中操作 | 无法进行三维编辑,仅能修改像素 |
核心优势
- 实时性与高保真平衡:在保持 NeRF 级画质的同时,实现了超实时渲染(>100 FPS),移除了对高端 VR 头显的依赖,仅靠浏览器即可运行。
• 训练高效:训练周期从传统神经渲染的数小时/天缩短至几十分钟。
• 采集简便:支持利用手机或普通摄像头采集 2D 数据并快速生成高质量 3D 场景。
• 浏览器友好:通过 Three.js 包装器或专门的渲染引擎(如 PlayCanvas),可轻松集成到 WebGL 网页中,实现跨平台部署。
形象比喻: 如果把720全景比作一张只能站在圆心看的全方位贴画,**虚拟展厅(网格)**高斯泼溅就像是一团由无数个“带有颜色和透明度的云朵”汇聚而成的幻影——它看起来几乎和现实一模一样,你可以穿梭其中,但当你试图去推一下它的墙壁时,你会发现它并没有实体的砖块。
