1. 【导读】
标题 | MultiGO: Towards Multi-level Geometry Learning for Monocular 3D Textured Human Reconstruction |
---|---|
作者 | Gangjian Zhang, Nanjie Yao, Shunsi Zhang, Hanfeng Zhao, Guoliang Pang, Jian Shu, Hao Wang |
作者机构 | 1. The Hong Kong University of Science and Technology (Guangzhou), China 2. Guangzhou Quwan Network Technology, China |
论文(代码)链接 | https://multigohuman.github.io/ arXiv:2412.03103v1 [cs.CV] 4 Dec 2024 |
2. 【摘要】
本文针对从单目图像重建3D着衣人体这一研究任务展开探讨。由于单视图输入存在固有歧义性,现有方法多借助预训练的SMPL(-X)估计模型或生成模型为人体重建提供辅助信息。然而,这些方法仅能捕捉人体的整体几何结构,却忽略了特定的几何细节,进而导致骨骼重建不准确、关节位置错误以及衣物褶皱不清晰等问题。
为解决上述问题,本文提出了一种多层次几何学习框架。在技术层面,设计了三个关键组件:骨骼层增强模块、关节层增强策略以及褶皱层细化模块。具体而言,将投影的3D傅里叶特征有效集成到高斯重建模型中,在训练过程中引入扰动以改进关节深度估计,并通过类似扩散模型去噪过程的方式细化人体粗略褶皱。
在两个分布外测试集上开展的大量定量和定性实验表明,与最先进的方法相比,本文提出的方法表现出更优的性能。
3. 【研究背景及相关工作】
3.1 研究背景
随着虚拟世界的兴起,对逼真数字人的需求显著增加,单目3D人体重建成为关键技术。然而,单视图图像缺乏深度和遮挡区域的完整信息,导致重建存在固有歧义性。现有方法依赖预训练的SMPL-X模型或生成模型作为几何先验,但仅能捕捉人体整体几何,忽略骨骼、关节、手指褶皱等多层次细节,导致骨骼重建不准确、关节位置偏差和衣物褶皱模糊等问题。此外,传统3D表示方法(如占用网格、SDF、NeRF)计算成本高、效率低,而近期基于高斯 splatting 的单视图重建为高效建模提供了新思路。
3.2 相关工作
3.2.1 单目人体重建
早期方法如PIFu通过像素对齐隐式函数生成形状和纹理,ICON引入蒙皮模型作为先验,ECON结合隐式表示与显式正则化。近年方法中,GTA利用3D解耦Transformer和混合先验融合,VS提出“拉伸-细化”策略处理衣物变形,HiLo通过提取参数模型的高低频信息增强细节,SiTH和SiFU分别利用扩散模型处理遮挡和纹理预测。但这些方法对多层次几何细节的处理仍不足。
3.2.2 人体高斯模型
3D高斯 splatting 的发展推动了高效人体建模,例如HuGS、HUGS等从单目视频优化高斯参数,HiFi4G通过双图机制保证时空一致性,GPSGaussian提出可泛化的多视图高斯模型。这些方法利用高斯的高效渲染特性,但单视图场景下仍需结合几何先验提升精度。
3.2.3 大型3D物体重建模型
大型模型如LRM通过卷积或Transformer实现高效2D到3D转换,结合多视图扩散模型(如instant3D、DMV3D)和高斯表示(如GS-LRM、AGG)提升重建质量。此类方法依赖大量3D数据预训练,而单目人体重建需解决几何先验与图像特征的跨模态融合问题。
4.【主要贡献】
4.1 提出多层次几何学习框架MultiGO
针对单目3D人体重建中传统方法忽略骨骼、关节、褶皱等多层次几何细节的问题,提出包含**骨骼层增强(SLE)、关节层增强(JLA)、褶皱层细化(WLR)**的多层次几何学习框架,显著提升重建精度和细节表现力。
4.2 骨骼层增强模块(SLE)
设计SLE模块,通过将3D傅里叶特征投影到2D图像空间,有效融合SMPL-X几何先验与图像特征,提升人体整体姿态捕捉的准确性,解决单视图几何信息不足的问题。
4.3 关节层增强策略(JLA)
提出JLA策略,在训练中对关节位置引入可控扰动,增强模型对推理阶段SMPL-X深度估计误差的鲁棒性,改善关节深度估计的准确性。
4.4 褶皱层细化模块(WLR)
开发WLR模块,利用高斯重建纹理作为条件,结合扩散模型去噪过程细化衣物褶皱等细微几何细节,提升网格表面的真实感。
4.5 实验验证与性能突破
在CustomHuman和THuman3.0等分布外测试集上,通过定量(如Chamfer距离、Normal Consistency)和定性实验,证明MultiGO在几何重建和纹理渲染上均优于现有SOTA方法,验证了多层次建模的有效性。
5.【研究方法与基本原理】
5.1 整体框架概述
MultiGO框架通过多层次几何学习解决单目3D人体重建的歧义性问题,核心包括骨骼层增强(SLE)、关节层增强(JLA)和褶皱层细化(WLR)三个模块,结合高斯 splatting 和扩散模型实现高精度重建。
5.2 骨骼层增强模块(SLE)
原理
通过投影3D傅里叶特征到2D图像空间,融合SMPL-X几何先验与图像特征,解决单视图几何信息不足问题。
关键公式
-
3D傅里叶特征提取:对输入的 SMPL-X 网格顶点P0∈R3×10475P_0\in\mathbb{R}^{3\times10475}P0∈R3×10475进行 q 阶傅里叶展开:
F(p)={p}∪{cos(2np),sin(2np)∣n∈{1,...,q}}\mathcal{F}(p)=\{p\}\cup\{\cos(2^np),\sin(2^np)\mid n\in\{1,...,q\}\}F(p)={p}∪{cos(2np),sin(2np)∣n∈{1,...,q}}扩展后的点云表示为P~n∈R3×m\tilde{P}_n\in\mathbb{R}^{3\times m}P~n∈R3×m,其中包含不同频率的傅里叶空间特征。 -
多视角投影融合:将不同傅里叶空间的点云从三个相机视角投影到 2D 空间,生成特征图F~1,F~2,F~3\tilde{F}_1,\tilde{F}_2,\tilde{F}_3F~1,F~2,F~3,并通
过卷积编码器提取几何特征F1′,F2′,F3′F_1^{\prime},F_2^{\prime},F_3^{\prime}F1′,F2′,F3′,与图像特征I0′I_0^{\prime}I0′维度对齐后融合。
5.3 关节层增强策略(JLA)
原理
在训练中对关节参数引入随机扰动,增强模型对推理阶段SMPL-X深度估计误差的鲁棒性。
关键公式
参数扰动模型:参数扰动模型:定义人体参数向量B=(β0,β1,...,βd)B=(\beta^0,\beta^1,...,\beta^d)B=(β0,β1,...,βd),通过掩码向量MMM选择深度相关参数,生成均匀分布扰动X∼U[−α,α]X\sim U[-\alpha,\alpha]X∼U[−α,α],得到增强参数:β~j=βj+μj⋅xj\tilde{\beta } ^j= \beta ^j+ \mu ^j\cdot x^jβ~j=βj+μj⋅xj (μj∈M( \mu ^j\in M(μj∈M, xj∈X)x^j\in X)xj∈X)。其中,α\alphaα控制扰动强度,扰动后的参数输入 SMPL-X 模型生成带关节偏差的网格,迫使模型学习纠正几何误
差。
5.4 褶皱层细化模块(WLR)
原理
利用高斯重建的高分辨率纹理作为条件,通过扩散模型的去噪过程细化衣物褶皱等细节。
关键公式
- 扩散模型去噪:将粗网格的法向量图InI_nIn视为加噪后的 latent 变量zkz_kzk,真实法向量图In′I_n^{\prime}In′为z0z_0z0,通过预训练UNet 预测噪声
ϵ:L=Eϵ∥ϵ−ϵθ(zk,k,Ic)∥22\epsilon:\mathcal{L}=\mathbb{E}_\epsilon\|\epsilon-\epsilon_\theta(z_k,k,I_c)\|_2^2ϵ:L=Eϵ∥ϵ−ϵθ(zk,k,Ic)∥22其中,IcI_cIc为高斯渲染的彩色图像,作为条件输入。
- 迭代优化:通过可微渲染器将预测法向量图与细化后的法向量图I^n\hat{I}_nI^n 对比,计算损失并更新网格顶点:
Lnormal=∑i=0N∥I^ni−R(M′,k)∥22\mathcal{L}_{\mathrm{normal}}=\sum_{i=0}^N\left\|\hat{I}_n^i-R(\mathcal{M}^\prime,k)\right\|_2^2Lnormal=i=0∑NI^ni−R(M′,k)22
其中,M′\mathcal{M}^{\prime}M′为迭代优化的网格,RRR为可微渲染函数。
5.5 高斯 splatting 与多模态融合
原理
将融合后的图像特征与几何特征输入多模态 UNet,预测 3D 高斯参数 (中心点xxx、缩放sss、旋转四元数qqq、透
明度α\alphaα、颜色c)c)c) ,通过可微渲染器生成多视图图像,优化损失函数:
Lrender=MSE(Irender,IGT)+LPIPS(Irender,IGT)\mathcal{L}_{\mathrm{render}}=\mathrm{MSE}(I_{\mathrm{render}},I_{\mathrm{GT}})+\mathrm{LPIPS}(I_{\mathrm{render}},I_{\mathrm{GT}})Lrender=MSE(Irender,IGT)+LPIPS(Irender,IGT)
其中,IrenderI_\mathrm{render}Irender为渲染图像,IGTI_\mathrm{GT}IGT 为真实扫描图像,结合 MSE 和 LPIPS 损失提升几何与纹理的一致性。
6.【实验结果】
6.1 定量评估
6.1.1 几何重建性能
在CustomHuman和THuman3.0两个分布外(OOD)测试集上,MultiGO在3D几何指标上显著优于现有SOTA方法:
- Chamfer距离(CD):在CustomHuman上,MultiGO的P-to-S和S-to-P距离分别为1.620 cm和1.782 cm,较第二名SiTH分别降低0.180 cm和0.406 cm;在THuman3.0上,CD值进一步降至1.408 cm和1.633 cm,优于SiTH的1.763 cm和2.002 cm。
- 法向量一致性(NC):MultiGO在CustomHuman和THuman3.0上分别达到0.850和0.834,较SiTH提升0.034和0.047,表明法向量预测更准确。
- f-score:在CustomHuman和THuman3.0上分别为42.425和46.091,较SiTH提升6.277和9.861,体现更高的几何细节召回率。
6.1.2 纹理渲染质量
在2D纹理指标上,MultiGO同样表现优异:
- LPIPS:在CustomHuman的前/后视图中为0.0414/0.0643,较SiTH降低0.0265/0.0200;THuman3.0上为0.0457/0.0616,降低0.0140/0.015,表明纹理感知相似度更高。
- SSIM:在CustomHuman和THuman3.0上分别达到0.9603/0.9415和0.9623/0.9512,显著高于其他方法,说明纹理结构更清晰。
- PSNR:在CustomHuman和THuman3.0上分别为22.347/20.849 dB和23.794/22.657 dB,较SiTH提升3.557/2.620 dB和2.667/2.160 dB,表明像素级重建精度更高。
6.2 定性评估
6.2.1 几何细节对比
与SOTA方法相比,MultiGO在骨骼、关节和褶皱细节上表现更优:
- 骨骼完整性:SiFU和VS存在姿态错误(如左手位置不正确、手指运动模糊),而MultiGO能准确捕捉人体整体姿态。
- 关节定位:SiTH和GTA存在关节深度误差(如手臂过细或多余凸起),MultiGO通过JLA策略显著提升关节位置准确性。
- 褶皱细化:传统方法(如ICON、ECON)的衣物褶皱模糊,MultiGO的WLR模块通过扩散去噪生成清晰的面部和衣物纹理细节。
6.2.2 消融实验
- SLE模块:移除后CD在CustomHuman上升至2.263 cm(w/o Fourier Proj.),表明3D傅里叶特征投影对几何先验融合至关重要。
- JLA策略:扰动强度α=0.25时性能最佳,α=0时CD增至1.708 cm,验证关节扰动对深度鲁棒性的提升。
- WLR模块:移除后f-score在THuman3.0降至45.525,说明其对细微褶皱的细化作用不可或缺。
6.3 可视化结果
- 多视图渲染:MultiGO生成的3D高斯点云经渲染后,在八个视图(含输入视图)中均能保持一致的几何和纹理,而PIFu和SiFU存在视角不一致问题。
- 误差分析:可视化对比显示,MultiGO的骨骼误差(如腿部前后位置)和纹理溢出(如背部多余颜色)显著少于其他方法,验证了多层次建模的有效性。
6.4 关键结论
MultiGO通过骨骼层增强、关节层扰动、褶皱层扩散细化的多层次框架,在单目3D人体重建的几何精度和纹理真实感上均达到SOTA,尤其在复杂姿态和细节还原上优势显著,为虚拟人创建提供了高效且准确的解决方案。
7.【论文总结展望】
总结
本文针对单目3D着衣人体重建中几何细节缺失和歧义性问题,提出了多层次几何学习框架MultiGO,包含骨骼层增强(SLE)、关节层增强(JLA)和褶皱层细化(WLR)三大核心模块。通过将3D傅里叶特征投影到2D空间融合几何先验、训练中引入关节扰动增强深度鲁棒性、利用扩散模型去噪细化褶皱细节,MultiGO在CustomHuman和THuman3.0等测试集上显著提升了几何重建精度(如Chamfer距离降低0.180/0.355 cm)和纹理质量(如SSIM提升0.0580/0.0321),超越了PIFu、SiTH等现有SOTA方法。实验表明,多层次建模策略有效解决了传统方法在骨骼、关节和褶皱层面的不足,验证了高斯模型与扩散模型结合在单目重建中的有效性。
展望
未来研究可从以下方向拓展:
- 多模态数据融合:探索结合多视图或视频序列数据,进一步提升重建的时空一致性,尤其是动态人体场景的建模能力。
- 轻量化设计:优化现有模块的计算效率,降低对高算力的依赖,推动模型在实时应用(如移动端虚拟人交互)中的部署。
- 语义理解整合:引入语义分割或姿态估计等高层语义信息,增强模型对复杂服装结构(如宽松衣物、饰品)的处理能力。
- 无先验模型重建:减少对SMPL-X等参数化模型的依赖,探索完全数据驱动的端到端重建,提升对非标准人体形态的泛化性。
- 生成式能力扩展:结合生成对抗网络或扩散模型的生成能力,实现从单图到多样化3D人体的生成,支持虚拟人创作的创意需求。
通过以上改进,有望进一步推动单目3D人体重建技术在元宇宙、影视特效、人机交互等领域的实际应用。