3D Gaussian Splatting源码解剖：实时神经渲染的突破点-CSDN博客

本文链接：https://blog.csdn.net/datacanvas2426/article/details/148874617

点击 “AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。

从百万级点云到实时高清渲染，3DGS如何通过显式优化与GPU并行化打破NeRF的算力枷锁？

一、核心架构：显式表示与梯度优化的融合

传统神经渲染方法（如NeRF）依赖隐式神经场表示，导致训练耗时长达数小时、渲染速度仅每秒数帧。3D Gaussian Splatting（3DGS）的突破性在于采用显式结构化表示与梯度优化的融合架构，其核心源码实现包含以下关键组件：

1.1 高斯参数化与存储结构

在gaussian_model.py中，高斯属性以张量形式存储：

class GaussianModel:
    def __init__(self):
        self._xyz = torch.empty(0)  # 位置坐标 [N, 3]
        self._scaling = torch.empty(0)  # 缩放因子 [N, 3]
        self._rotation = torch.empty(0)  # 旋转四元数 [N, 4]
        self._opacity = torch.empty(0)  # 不透明度 [N, 1]
        self._features = torch.empty(0)  # 球谐系数 [N, 16, 3]

这种设计实现参数的高效访问，避免传统隐式场的前向传播计算。

1.2 自适应密度控制（Adaptive Density Control）

在optimizer.py中的核心优化循环：

for iteration in range(iterations):
    # 1. 渲染图像并计算损失
    rendered_image = render(gaussians, camera)
    loss = (rendered_image - gt_image).abs().mean()
    
    # 2. 反向传播更新高斯参数
    loss.backward()
    optimizer.step()
    
    # 3. 每1000迭代执行密度控制
    if iteration % 1000 == 0:
        gaussians.adjust_density(grad_threshold=0.0002)

密度控制模块通过梯度分析动态触发分裂（split）、克隆（clone） 与剪枝（prune） 操作，实现场景表示的精准优化。

二、自适应密度控制：梯度驱动的动态优化

传统点云方法依赖固定启发式规则，而3DGS通过梯度反馈动态调整高斯分布，源码中体现为三类操作：

2.1 分裂与克隆的条件判断

在density_control.py中，梯度幅值触发分裂：

def should_split(gaussian, grad_threshold):
    position_grad = gaussian.xyz.grad.norm(dim=1)
    scale_grad = gaussian.scaling.grad.norm(dim=1)
    # 位置梯度大且尺度大 → 分裂
    if (position_grad > grad_threshold) and (gaussian.scaling.max() > split_threshold):
        return SPLIT
    # 位置梯度大但尺度小 → 克隆
    elif (position_grad > grad_threshold) and (gaussian.scaling.max() <= clone_threshold):
        return CLONE

该机制确保高斯元在高梯度区域分裂以捕捉细节，在低梯度区域克隆以维持覆盖。

2.2 基于KL散度的合并优化

GauHuman项目（gauhuman/merging.py）引入KL散度解决冗余问题：

def merge_gaussians(gaussian1, gaussian2):
    # 计算分布相似性
    kl_div = compute_kl(gaussian1, gaussian2)
    if kl_div < merge_threshold:  # 相似则合并
        new_mean = (gaussian1.xyz + gaussian2.xyz) / 2
        new_cov = (gaussian1.covariance + gaussian2.covariance) / 2
        return Gaussian(new_mean, new_cov)

此操作减少30%冗余高斯元，存储降至3.5MB/场景。

2.3 人体先验引导的剪枝

GauHuman利用SMPL模型剪枝无关高斯：

prune_mask = torch.norm(gaussians.xyz - smpl_vertices, dim=1) > prune_radius
gaussians.remove(prune_mask)  # 移除远离人体的高斯

结合KL约束，实现13k高斯元高效建模人体。

三、可微分渲染管线：GPU并行化实现

渲染速度是3DGS的核心优势，其CUDA内核（rasterizer.cu）通过三级并行实现200+ FPS：

3.1 分块光栅化流程

__global__ void render_tile(
    const Gaussian* gaussians, 
    float* image, 
    int tile_x, int tile_y) {
    
    // 1. 筛选与当前tile相交的高斯
    for (int i = threadIdx.x; i < num_gaussians; i += blockDim.x) {
        if (tile_intersects(gaussians[i], tile_x, tile_y)) {
            tile_gaussians[atomicAdd(&count, 1)] = i;
        }
    }
    __syncthreads();
    
    // 2. 按深度排序
    sort_gaussians_by_depth(tile_gaussians, count);
    
    // 3. Alpha混合计算
    for (int i = 0; i < count; i++) {
        splat_gaussian(gaussians[tile_gaussians[i]], image);
    }
}

每个CUDA线程块处理一个16×16像素块，避免全局排序开销。

3.2 基于球谐系数的光照计算

sh_eval.cu中实时计算光照：

float3 eval_sh(int degree, float3 dir, float* coeffs) {
    float3 result = {0, 0, 0};
    for (int l=0; l<=degree; ++l) {
        for (int m=-l; m<=l; ++m) {
            float basis = sh_basis(l, m, dir); // 球谐基函数
            result += coeffs[sh_index(l, m)] * basis;
        }
    }
    return result;
}

支持动态光照变化，无需预烘焙纹理。

四、动态场景建模：形变场与几何感知

静态3DGS无法处理动态物体，扩展方案通过形变场实现运动建模：

4.1 可变形高斯溅射（GaGS）

在deformable_gs.py中融合几何特征：

class DeformableGaussianModel(GaussianModel):
    def apply_deformation(self, time):
        # 提取时间相关的几何特征
        geometry_feat = self.geometry_encoder(self._xyz, time)
        # 预测位移场
        delta_xyz = self.deform_net(geometry_feat)
        return self._xyz + delta_xyz

显式几何约束减少运动模糊，提升动态重建精度15%。

4.2 人体姿态纠正（GauHuman）

pose_correction_module.py解决SMPL先验偏差：

def correct_pose(smpl_pose, observed_joints):
    # 学习残差位移
    pose_residual = mlp(smpl_pose - observed_joints)
    corrected_pose = smpl_pose + pose_residual
    return corrected_pose

结合LBS变换实现关节运动精确建模。

五、高效存储与量化策略

原始3DGS需700MB+存储，工业部署需压缩技术：

5.1 球谐系数压缩（SG-Splatting）

compression.py中采用球面高斯近似：

def compress_sh(sh_coeffs):
    # 原始球谐系数 [16, 3] → 球面高斯 [4, 3]
    bases = compute_spherical_gaussians_bases()
    proj_coeffs = project_to_bases(sh_coeffs, bases)
    return proj_coeffs  # 存储降维67%

在保持视觉质量同时减少存储开销。

5.2 低秩矩阵分解（SteepGS）

SteepGS项目（src/compression.py）分解协方差矩阵：

def low_rank_covariance(cov):
    U, S, V = torch.svd(cov)
    # 仅保留前2个奇异值
    rank2_cov = U[:, :2] @ torch.diag(S[:2]) @ V[:, :2].T
    return rank2_cov  # 存储需求减半

配合最陡密度控制，实现50%高斯点削减且PSNR损失<0.1dB。

六、工业级部署实战

6.1 环境配置要点

Ubuntu环境需满足：

CUDA 11.8+：避免已知兼容问题
gcc-9与CMake 3.25：确保C++17支持
特定版本库：Eigen 3.4.0、OpenCV 4.9.0

6.2 训练与可视化

# 数据准备（需COLMAP位姿）
python convert.py -s /path/to/images
# 启动训练（Truck场景示例）
python train.py -s data/truck/ -m output --iterations 30000
# 实时可视化
./SIBR_viewers/bin/SIBR_gaussianViewer_app -m output

单场景训练约30分钟（RTX 4090）。

七、性能对比与未来方向

表：主流神经渲染方案性能对比（1080p分辨率）

方法	训练时间	渲染速度	存储/场景	PSNR
NeRF	48小时	0.2 FPS	5 MB	25.8 dB
Instant-NGP	5分钟	15 FPS	130 MB	26.1 dB
3DGS (原始)	30分钟	240 FPS	734 MB	27.0 dB
GauHuman	2分钟	189 FPS	3.5 MB	29.2 dB

未来挑战

动态拓扑变化：衣物皱褶等细节重建仍不理想
Mesh提取：缺乏从高斯到网格的鲁棒转换方法
跨场景泛化：需大规模预训练提升泛化性

创新方向

物理仿真融合：引入布料模拟增强衣物细节
生成式建模：HumanGaussian实现文本→3D人体生成
传感器集成：RGB-D数据提升深度估计精度

3DGS的突破不仅在于速度，更在于打开了显式优化与隐式表示融合的新范式。当每一帧渲染都在毫秒间完成，我们离实时数字孪生的未来又近一步。

源码资源：

参考文献：

Kerbl et al. 3D Gaussian Splatting for Real-Time Radiance Field Rendering, SIGGRAPH 2023
Hu et al. GauHuman: Articulated Gaussian Splatting from Monocular Videos, arXiv 2023
Wang et al. Steepest Descent Density Control for Compact 3DGS, CVPR 2025
Liu et al. HumanGaussian: Text-Driven 3D Human Generation, arXiv 2023