CVPR 2025 | 港科大 提出MultiGO:单图重建逼真3D人体,精度超越所有SOTA!

1. 【导读】

​​​​
论文信息

标题MultiGO: Towards Multi-level Geometry Learning for Monocular 3D Textured Human Reconstruction
作者Gangjian Zhang, Nanjie Yao, Shunsi Zhang, Hanfeng Zhao, Guoliang Pang, Jian Shu, Hao Wang
作者机构1. The Hong Kong University of Science and Technology (Guangzhou), China
2. Guangzhou Quwan Network Technology, China
论文(代码)链接https://multigohuman.github.io/
arXiv:2412.03103v1 [cs.CV] 4 Dec 2024

2. 【摘要】

本文针对从单目图像重建3D着衣人体这一研究任务展开探讨。由于单视图输入存在固有歧义性,现有方法多借助预训练的SMPL(-X)估计模型或生成模型为人体重建提供辅助信息。然而,这些方法仅能捕捉人体的整体几何结构,却忽略了特定的几何细节,进而导致骨骼重建不准确、关节位置错误以及衣物褶皱不清晰等问题。

为解决上述问题,本文提出了一种多层次几何学习框架。在技术层面,设计了三个关键组件:骨骼层增强模块关节层增强策略以及褶皱层细化模块。具体而言,将投影的3D傅里叶特征有效集成到高斯重建模型中,在训练过程中引入扰动以改进关节深度估计,并通过类似扩散模型去噪过程的方式细化人体粗略褶皱。

在两个分布外测试集上开展的大量定量和定性实验表明,与最先进的方法相比,本文提出的方法表现出更优的性能。

Comparisons with the SOTA Methods in Monocular 3D Textured Human Reconstruction

3. 【研究背景及相关工作】

3.1 研究背景

随着虚拟世界的兴起,对逼真数字人的需求显著增加,单目3D人体重建成为关键技术。然而,单视图图像缺乏深度和遮挡区域的完整信息,导致重建存在固有歧义性。现有方法依赖预训练的SMPL-X模型或生成模型作为几何先验,但仅能捕捉人体整体几何,忽略骨骼、关节、手指褶皱等多层次细节,导致骨骼重建不准确、关节位置偏差和衣物褶皱模糊等问题。此外,传统3D表示方法(如占用网格、SDF、NeRF)计算成本高、效率低,而近期基于高斯 splatting 的单视图重建为高效建模提供了新思路。

3.2 相关工作

3.2.1 单目人体重建

早期方法如PIFu通过像素对齐隐式函数生成形状和纹理,ICON引入蒙皮模型作为先验,ECON结合隐式表示与显式正则化。近年方法中,GTA利用3D解耦Transformer和混合先验融合,VS提出“拉伸-细化”策略处理衣物变形,HiLo通过提取参数模型的高低频信息增强细节,SiTH和SiFU分别利用扩散模型处理遮挡和纹理预测。但这些方法对多层次几何细节的处理仍不足。

3.2.2 人体高斯模型

3D高斯 splatting 的发展推动了高效人体建模,例如HuGS、HUGS等从单目视频优化高斯参数,HiFi4G通过双图机制保证时空一致性,GPSGaussian提出可泛化的多视图高斯模型。这些方法利用高斯的高效渲染特性,但单视图场景下仍需结合几何先验提升精度。

3.2.3 大型3D物体重建模型

大型模型如LRM通过卷积或Transformer实现高效2D到3D转换,结合多视图扩散模型(如instant3D、DMV3D)和高斯表示(如GS-LRM、AGG)提升重建质量。此类方法依赖大量3D数据预训练,而单目人体重建需解决几何先验与图像特征的跨模态融合问题。

4.【主要贡献】

4.1 提出多层次几何学习框架MultiGO

针对单目3D人体重建中传统方法忽略骨骼、关节、褶皱等多层次几何细节的问题,提出包含**骨骼层增强(SLE)、关节层增强(JLA)、褶皱层细化(WLR)**的多层次几何学习框架,显著提升重建精度和细节表现力。
Method Overview.

4.2 骨骼层增强模块(SLE)

设计SLE模块,通过将3D傅里叶特征投影到2D图像空间,有效融合SMPL-X几何先验与图像特征,提升人体整体姿态捕捉的准确性,解决单视图几何信息不足的问题。
Skeleton-Level Enhancement Module

4.3 关节层增强策略(JLA)

提出JLA策略,在训练中对关节位置引入可控扰动,增强模型对推理阶段SMPL-X深度估计误差的鲁棒性,改善关节深度估计的准确性。
Joint-Level Augmentation Strategy

4.4 褶皱层细化模块(WLR)

开发WLR模块,利用高斯重建纹理作为条件,结合扩散模型去噪过程细化衣物褶皱等细微几何细节,提升网格表面的真实感。
Wrinkle-Level Refinement Module.

4.5 实验验证与性能突破

在CustomHuman和THuman3.0等分布外测试集上,通过定量(如Chamfer距离、Normal Consistency)和定性实验,证明MultiGO在几何重建和纹理渲染上均优于现有SOTA方法,验证了多层次建模的有效性。

5.【研究方法与基本原理】

5.1 整体框架概述

MultiGO框架通过多层次几何学习解决单目3D人体重建的歧义性问题,核心包括骨骼层增强(SLE)、关节层增强(JLA)和褶皱层细化(WLR)三个模块,结合高斯 splatting 和扩散模型实现高精度重建。

5.2 骨骼层增强模块(SLE)

原理

通过投影3D傅里叶特征到2D图像空间,融合SMPL-X几何先验与图像特征,解决单视图几何信息不足问题。

关键公式
  1. 3D傅里叶特征提取:对输入的 SMPL-X 网格顶点P0∈R3×10475P_0\in\mathbb{R}^{3\times10475}P0R3×10475进行 q 阶傅里叶展开:
    F(p)={p}∪{cos⁡(2np),sin⁡(2np)∣n∈{1,...,q}}\mathcal{F}(p)=\{p\}\cup\{\cos(2^np),\sin(2^np)\mid n\in\{1,...,q\}\}F(p)={p}{cos(2np),sin(2np)n{1,...,q}}扩展后的点云表示为P~n∈R3×m\tilde{P}_n\in\mathbb{R}^{3\times m}P~nR3×m,其中包含不同频率的傅里叶空间特征。

  2. 多视角投影融合:将不同傅里叶空间的点云从三个相机视角投影到 2D 空间,生成特征图F~1,F~2,F~3\tilde{F}_1,\tilde{F}_2,\tilde{F}_3F~1,F~2,F~3,并通
    过卷积编码器提取几何特征F1′,F2′,F3′F_1^{\prime},F_2^{\prime},F_3^{\prime}F1,F2,F3,与图像特征I0′I_0^{\prime}I0维度对齐后融合。

5.3 关节层增强策略(JLA)

原理

在训练中对关节参数引入随机扰动,增强模型对推理阶段SMPL-X深度估计误差的鲁棒性。

关键公式

参数扰动模型:参数扰动模型:定义人体参数向量B=(β0,β1,...,βd)B=(\beta^0,\beta^1,...,\beta^d)B=(β0,β1,...,βd),通过掩码向量MMM选择深度相关参数,生成均匀分布扰动X∼U[−α,α]X\sim U[-\alpha,\alpha]XU[α,α],得到增强参数:β~j=βj+μj⋅xj\tilde{\beta } ^j= \beta ^j+ \mu ^j\cdot x^jβ~j=βj+μjxj (μj∈M( \mu ^j\in M(μjM, xj∈X)x^j\in X)xjX)。其中,α\alphaα控制扰动强度,扰动后的参数输入 SMPL-X 模型生成带关节偏差的网格,迫使模型学习纠正几何误
差。

5.4 褶皱层细化模块(WLR)

原理

利用高斯重建的高分辨率纹理作为条件,通过扩散模型的去噪过程细化衣物褶皱等细节。

关键公式
  1. 扩散模型去噪:将粗网格的法向量图InI_nIn视为加噪后的 latent 变量zkz_kzk,真实法向量图In′I_n^{\prime}Inz0z_0z0,通过预训练UNet 预测噪声

ϵ:L=Eϵ∥ϵ−ϵθ(zk,k,Ic)∥22\epsilon:\mathcal{L}=\mathbb{E}_\epsilon\|\epsilon-\epsilon_\theta(z_k,k,I_c)\|_2^2ϵ:L=Eϵϵϵθ(zk,k,Ic)22其中,IcI_cIc为高斯渲染的彩色图像,作为条件输入。

  1. 迭代优化:通过可微渲染器将预测法向量图与细化后的法向量图I^n\hat{I}_nI^n 对比,计算损失并更新网格顶点:

Lnormal=∑i=0N∥I^ni−R(M′,k)∥22\mathcal{L}_{\mathrm{normal}}=\sum_{i=0}^N\left\|\hat{I}_n^i-R(\mathcal{M}^\prime,k)\right\|_2^2Lnormal=i=0NI^niR(M,k)22

其中,M′\mathcal{M}^{\prime}M为迭代优化的网格,RRR为可微渲染函数。

5.5 高斯 splatting 与多模态融合

原理

将融合后的图像特征与几何特征输入多模态 UNet,预测 3D 高斯参数 (中心点xxx、缩放sss、旋转四元数qqq、透
明度α\alphaα、颜色c)c)c) ,通过可微渲染器生成多视图图像,优化损失函数:

Lrender=MSE(Irender,IGT)+LPIPS(Irender,IGT)\mathcal{L}_{\mathrm{render}}=\mathrm{MSE}(I_{\mathrm{render}},I_{\mathrm{GT}})+\mathrm{LPIPS}(I_{\mathrm{render}},I_{\mathrm{GT}})Lrender=MSE(Irender,IGT)+LPIPS(Irender,IGT)

其中,IrenderI_\mathrm{render}Irender为渲染图像,IGTI_\mathrm{GT}IGT 为真实扫描图像,结合 MSE 和 LPIPS 损失提升几何与纹理的一致性。

6.【实验结果】

6.1 定量评估

6.1.1 几何重建性能

在CustomHuman和THuman3.0两个分布外(OOD)测试集上,MultiGO在3D几何指标上显著优于现有SOTA方法:

  • Chamfer距离(CD):在CustomHuman上,MultiGO的P-to-S和S-to-P距离分别为1.620 cm和1.782 cm,较第二名SiTH分别降低0.180 cm和0.406 cm;在THuman3.0上,CD值进一步降至1.408 cm和1.633 cm,优于SiTH的1.763 cm和2.002 cm。
  • 法向量一致性(NC):MultiGO在CustomHuman和THuman3.0上分别达到0.850和0.834,较SiTH提升0.034和0.047,表明法向量预测更准确。
  • f-score:在CustomHuman和THuman3.0上分别为42.425和46.091,较SiTH提升6.277和9.861,体现更高的几何细节召回率。
    Comparison of Human Geometry with SOTA methods.
6.1.2 纹理渲染质量

在2D纹理指标上,MultiGO同样表现优异:

  • LPIPS:在CustomHuman的前/后视图中为0.0414/0.0643,较SiTH降低0.0265/0.0200;THuman3.0上为0.0457/0.0616,降低0.0140/0.015,表明纹理感知相似度更高。
  • SSIM:在CustomHuman和THuman3.0上分别达到0.9603/0.9415和0.9623/0.9512,显著高于其他方法,说明纹理结构更清晰。
  • PSNR:在CustomHuman和THuman3.0上分别为22.347/20.849 dB和23.794/22.657 dB,较SiTH提升3.557/2.620 dB和2.667/2.160 dB,表明像素级重建精度更高。
    Comparison of Human Texture with SOTA methods.

6.2 定性评估

6.2.1 几何细节对比

与SOTA方法相比,MultiGO在骨骼、关节和褶皱细节上表现更优:

  • 骨骼完整性:SiFU和VS存在姿态错误(如左手位置不正确、手指运动模糊),而MultiGO能准确捕捉人体整体姿态。
  • 关节定位:SiTH和GTA存在关节深度误差(如手臂过细或多余凸起),MultiGO通过JLA策略显著提升关节位置准确性。
  • 褶皱细化:传统方法(如ICON、ECON)的衣物褶皱模糊,MultiGO的WLR模块通过扩散去噪生成清晰的面部和衣物纹理细节。
     Comparisons with the SOTA Methods in Monocular 3D Textured Human Reconstruction
6.2.2 消融实验

Visual Ablation.

  • SLE模块:移除后CD在CustomHuman上升至2.263 cm(w/o Fourier Proj.),表明3D傅里叶特征投影对几何先验融合至关重要。
  • JLA策略:扰动强度α=0.25时性能最佳,α=0时CD增至1.708 cm,验证关节扰动对深度鲁棒性的提升。
  • WLR模块:移除后f-score在THuman3.0降至45.525,说明其对细微褶皱的细化作用不可或缺。

Ablation Study on Three Core Components.

6.3 可视化结果

  • 多视图渲染:MultiGO生成的3D高斯点云经渲染后,在八个视图(含输入视图)中均能保持一致的几何和纹理,而PIFu和SiFU存在视角不一致问题。
  • 误差分析:可视化对比显示,MultiGO的骨骼误差(如腿部前后位置)和纹理溢出(如背部多余颜色)显著少于其他方法,验证了多层次建模的有效性。

Qualitative comparison with SOTA methods

6.4 关键结论

MultiGO通过骨骼层增强、关节层扰动、褶皱层扩散细化的多层次框架,在单目3D人体重建的几何精度和纹理真实感上均达到SOTA,尤其在复杂姿态和细节还原上优势显著,为虚拟人创建提供了高效且准确的解决方案。

7.【论文总结展望】

总结

本文针对单目3D着衣人体重建中几何细节缺失和歧义性问题,提出了多层次几何学习框架MultiGO,包含骨骼层增强(SLE)、关节层增强(JLA)和褶皱层细化(WLR)三大核心模块。通过将3D傅里叶特征投影到2D空间融合几何先验、训练中引入关节扰动增强深度鲁棒性、利用扩散模型去噪细化褶皱细节,MultiGO在CustomHuman和THuman3.0等测试集上显著提升了几何重建精度(如Chamfer距离降低0.180/0.355 cm)和纹理质量(如SSIM提升0.0580/0.0321),超越了PIFu、SiTH等现有SOTA方法。实验表明,多层次建模策略有效解决了传统方法在骨骼、关节和褶皱层面的不足,验证了高斯模型与扩散模型结合在单目重建中的有效性。

展望

未来研究可从以下方向拓展:

  1. 多模态数据融合:探索结合多视图或视频序列数据,进一步提升重建的时空一致性,尤其是动态人体场景的建模能力。
  2. 轻量化设计:优化现有模块的计算效率,降低对高算力的依赖,推动模型在实时应用(如移动端虚拟人交互)中的部署。
  3. 语义理解整合:引入语义分割或姿态估计等高层语义信息,增强模型对复杂服装结构(如宽松衣物、饰品)的处理能力。
  4. 无先验模型重建:减少对SMPL-X等参数化模型的依赖,探索完全数据驱动的端到端重建,提升对非标准人体形态的泛化性。
  5. 生成式能力扩展:结合生成对抗网络或扩散模型的生成能力,实现从单图到多样化3D人体的生成,支持虚拟人创作的创意需求。

通过以上改进,有望进一步推动单目3D人体重建技术在元宇宙、影视特效、人机交互等领域的实际应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值