基于几何条件的PBR图像生成的协作控制
立即解锁
发布时间: 2025-09-02 00:56:36 阅读量: 11 订阅数: 27 AIGC 


计算机视觉前沿研究
### 基于几何条件的 PBR 图像生成的协作控制
#### 1. 引言
近年来,扩散模型的迅速崛起使得大规模生成高质量 RGB 图像内容变得前所未有的容易,文本到纹理和文本到 3D 的方法也成功将其拓展到了 3D 领域。然而,为了使生成的纹理在下游 3D 工作流程中发挥最大作用,生成的内容必须与基于物理的渲染(PBR)管道兼容,以实现正确的着色和重新照明。
当前的方法依赖于生成的 RGB 图像,然后通过逆渲染提取 PBR 信息,但这种方法存在问题。生成的 RGB 图像中的光照在物理上不准确,并且逆渲染过程存在显著的模糊性。为了解决这些问题,我们直接对联合分布进行建模,避免了光度一致性和逆渲染方面的问题。
现有的对非 RGB 模态分布建模的方法,通常是微调基础 RGB 模型的权重。但对于 PBR 图像来说,这些方法并不适用。联合预测整个 PBR 图像堆栈存在问题,因为高维模态无法很好地压缩到已有的潜在空间中;而顺序预测 PBR 图像堆栈的元素则成本高昂,且在顺序生成过程中容易累积误差。此外,虽然最先进的 RGB 扩散模型在数十亿张图像上进行训练,但目前没有如此大规模的 PBR 内容生成数据集。最大的可用 PBR 内容数据集 Objaverse 仅包含约 800,000 个带有相关 PBR 纹理的对象,且对象外观局限于“日常”场景。在有限的训练数据下,微调基础模型会导致灾难性遗忘,丧失泛化能力。
因此,我们保持预训练的 RGB 图像模型冻结,训练一个并行模型来生成 PBR 图像。通过我们提出的跨网络控制范式,将 PBR 模型与冻结的 RGB 模型紧密相连,以利用其表达能力和丰富的内部状态。这样,我们能够生成高质量且多样化的 PBR 内容,即使是对象不太可能出现的外观(超出 Objaverse 数据集的分布)也能处理。同时,冻结的 RGB 模型可以防止灾难性遗忘,并与 IPAdapter 等技术兼容。具体来说,我们的贡献如下:
1. 提出了新颖的协作控制范式,将 PBR 生成器与完全冻结的预训练 RGB 模型紧密相连,直接对 RGB 和 PBR 图像的联合分布进行建模。
2. 证明了所提出的控制机制具有数据效率,即使在非常有限的训练集上也能生成高质量的图像。
3. 展示了与 IPAdapter 的兼容性。
4. 通过消融实验,证明了我们的设计选择相对于现有范式的改进以及现有范式存在的问题。
#### 2. 相关工作
- **从文本提示生成自然图像**:自然图像生成有着悠久的历史,从生成对抗网络(GANs)、变分自编码器(VAEs)到自回归模型。近年来,扩散模型的引入是生成领域的一个突破,它比典型的 GAN 训练更稳定,虽然速度慢且计算成本高,但更容易控制和调节。然而,这些方法需要数十亿张图像才能从头开始训练,而对于 PBR 图像生成,最大的常用数据集 Objaverse 规模远小于此,不足以训练能够泛化到不太可能出现的语义的生成模型。此外,预训练的 RGB 模型虽然编码了丰富的结构、语义和材料知识,但在几何和材料属性方面往往不准确,扩散模型更倾向于理想化和艺术化的外观,而不是光度准确性。
- **生成非 RGB 模态**:现有的工作通过微调预训练的 RGB 模型来预测深度、语义或内在属性,但这些方法对于 PBR 图像生成不可行。将 PBR 图像压缩到现有的低维潜在空间会使其过载,而顺序预测通道三元组则成本高且速度慢。Wonder3D 和 UniDream 使用跨域自注意力对齐两个并行分支进行联合 RGB 和法线扩散,但随着输出模态数量的增加,这种方法的扩展性较差。我们的方法使用冻结的 RGB 模型,避免了灾难性遗忘,并在 PBR VAE 的潜在空间中联合训练一个并行分支来处理所有额外的模态,降低了成本。
- **基于图像的条件控制**:现有的像素精确控制技术有两种类型:修改输入空间重新训练基础模型,以及训练一个影响基础模型状态的并行模型。前者可能会失去基础模型的表达能力和质量。在 ControlNet 和 ControlNet - XS 中,控制模型只影响基础 RGB 模型的输出;而在 AnimateAnyone 中,并行模型只负责生成自己的输出。我们的方法则完全冻结 RGB 基础模型的权重,并从一个负责生成 PBR 图像的并行模型对其内部状态进行残差编辑,因此需要两个分支之间的全双向连接。为了对输入几何进行条件控制,我们将其连接到 PBR 分支的输入。
- **文本到 3D**:早期的文本到 3D 方法通过反向传播扩散模型的噪声预测来迭代优化 3D 表示,或者基于视点感知图像模型进行直接融合。但这些 RGB 方法忽略了对象外观随视角变化的问题,其 RGB 输出在图形管道中用处不大。最近的工作通过可微渲染器进行逆渲染来生成 PBR 属性,但存在光照被烘焙到材料通道的问题。文本到纹理方法通过对对象几何进行条件控制来限制文本到 3D 问题,但在 RGB 域中操作也面临类似问题。我们的方法直接生成 PBR 内容,有望解决逆渲染相关问题,同时保留早期方法的简单性。
- **评估指标**:生成方法的评估指标通常使用 Inception Score(IS)或 Fréchet Inception Distance(FID)来比较输出分布与已知的真实分布。但 CMMD 认为这些指标不适用于现代生成模型,建议比较 CLIP 嵌入的分布。此外,我们还希望评估生成图像与文本提示的对齐程度,使用 CLIPScore 比较图像的 CLIP 嵌入与提示的嵌入,同时报告 OneAlign 美学和质量指标,以提供更量化的质量指示。
#### 3. 预备知识
PBR 材料是双向反射分布函数(BRDF)的紧凑表示,描述了光如何从物体表面反射。我们使用流行的 Cook - Torrance 分析 BRDF 模型,特别是 Disney BRDF 基色 - 金属参数化,因为它本质上促进了物理正确性。在这种参数化中,BRDF 由反照率
0
0
复制全文
相关推荐








