做SLAM没有位姿真值？Director3D：直接生成真实世界相机轨迹和3D场景！-CSDN博客

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

从文本生成3D场景在游戏、机器人技术和VR/AR等行业具有巨大潜力。先前的方法使用分数蒸馏采样（SDS）来优化如神经辐射场（NeRFs）等3D表示，但这些方法涉及冗长且不稳定的优化过程。相比之下，更新的方法采用前馈网络，如扩散和重建模型，直接从文本或文本引导的多视角图像生成3D表示，显著提高了生成速度。此外，3D高斯喷溅（Gaussian Splatting）的进步进一步加速了训练和渲染速度，推动了文本到3D生成领域的下一波发展。然而，大多数现有方法仅关注物体级别的3D生成。最近，一些初步工作开始探索场景级别的3D生成。尽管付出了这些努力，但由于仅依赖2D先验或有限的几类3D数据集，视觉质量、生成速度和泛化能力仍然不尽如人意。

在本文中，我们利用现实世界的数据集（如MVImgNet和DL3DV-10K）来实现逼真的文本到3D生成。然而，来自野外场景的现实世界捕获与传统的物体级别合成数据集存在显著差异，这对文本到3D生成框架提出了新的要求。首先，现实世界捕获具有复杂、不可预测且特定于场景的相机轨迹，这与如Objaverse等物体级别合成数据集中的受控和预定义设置不同。其次，现实世界场景包含无界背景，这使得使用常见的有界3D表示（如Tri-planes）变得复杂。最后，现实世界捕获的多样性和数量有限，可能会降低对开放世界文本的泛化能力。

我们针对这些挑战提出了一个新颖的框架——Director3D。总结而言，我们的方法包括以下三个关键组件：

• Traj-DiT（轨迹扩散转换器）作为摄影师：根据文本生成密集视角的相机轨迹。相机参数（包括内参和外参）被视为时间令牌，并使用Transformer模型对相机轨迹进行条件去噪。

• GM-LDM（高斯驱动的多视角潜在扩散模型）作为装饰者：利用相机轨迹的稀疏视角子集进行图像序列扩散，生成像素对齐且无界的3D高斯分布作为中间3D表示。该模型从二维潜在扩散模型微调而来，利用强大的先验知识以及多视角和单视角数据的协同训练，以缓解现实世界捕获中数据多样性和数量的限制，从而提高泛化能力。

• SDS++损失作为细节处理者：通过反向传播一个新颖的SDS++损失，该损失来源于在轨迹内随机插值的相机上渲染的图像，从而提升3D高斯分布的视觉质量。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text

作者：Xinyang Li, Zhangyu Lai, Linning Xu, Yansong Qu, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji

机构：厦门大学、上海AI Lab、香港中文大学

原文链接：https://arxiv.org/abs/2406.17601

代码链接：https://github.com/imlixinyang/director3d

2. 摘要

近年来，在3D生成领域的进步已经利用了具有真实3D资产和预定义相机轨迹的合成数据集。然而，采用能够生成更加逼真的3D场景的真实世界数据集的潜力仍然在很大程度上尚未被探索。在本文中，我们深入研究了在真实世界捕获中发现的复杂且特定于场景的相机轨迹这一关键挑战。我们引入了Director3D，一个强大的开放世界文本到3D生成框架，旨在生成真实世界的3D场景和自适应相机轨迹。为了实现这一目标，（1）我们首先利用轨迹扩散转换器（Trajectory Diffusion Transformer），作为摄影师（Cinematographer），根据文本描述对相机轨迹的分布进行建模。接下来，一个高斯驱动的多视角潜在扩散模型（Gaussian-driven Multi-view Latent Diffusion Model）作为装饰者（Decorator），在给定的相机轨迹和文本条件下对图像序列分布进行建模。该模型从二维扩散模型微调而来，直接生成像素对齐的3D高斯分布作为即时3D场景表示，以实现一致的降噪。最后，利用一种新颖的SDS++损失作为细节处理者（Detailer），对3D高斯分布进行进一步细化，该损失融入了二维扩散模型的先验知识。大量实验表明，Director3D优于现有方法，在真实世界3D生成方面表现出色。

3. 效果展示

给定文本描述，Director3D采用了三个关键组件：摄影师生成相机轨迹，装饰者创建初始3D场景，细节者细化细节。

使用生成的相机轨迹和3D场景渲染的多视图图像结果。

在图6中，我们展示了针对不同文本提示生成的相机轨迹和图像序列的结果。对于对象级别的提示，生成的相机轨迹通常围绕并面对对象，与MVImgNet中的分布很好地对齐。相比之下，场景级别的提示产生了更多样化和复杂的相机轨迹，展示了我们的Traj-DiT模型的有效性。我们的方法还能在不同类型的提示下生成逼真的图像，证明了GM-LDM模型和SDS++损失的有效性和泛化能力。

4. 基本原理是啥？

我们将真实世界捕获的多视角数据集视为图像序列和相机轨迹的联合分布，该分布以文本为条件，记作 p((X, C)|y)。其中，X = {xi}Mi=1 表示图像序列，C = {ci}Mi=1 表示相机轨迹，M 是视角的数量。为了对这个联合分布进行建模，我们分别处理条件分布 p(C|y) 和 p(X|(C, y))（详细讨论见附录B）。此外，我们将序列中的每张图像视为在相应相机下统一3D场景表示G的渲染视图，表示为 xi = R(G, ci)，其中R是3D渲染函数。

Director3D通过结合三个协同过程来解决这个问题，这些过程类似于电影制作中的角色：摄影师（Cinematographer）、装饰者（Decorator）和细节处理者（Detailer）。首先，轨迹扩散转换器（Trajectory Diffusion Transformer，简称Traj-DiT）作为摄影师，对密集视角相机轨迹的分布进行建模。对于图像序列，直接对密集视角分布进行建模是复杂且资源密集型的。为了解决这个问题，我们使用高斯驱动的多视角潜在扩散模型（Gaussians-driven Multi-view Latent Diffusion Model，简称GM-LDM）作为装饰者，通过密集视角的一个稀疏子集对图像分布进行建模。该模型利用像素对齐的3D高斯分布作为中间表示。最后，为了提高生成3D场景的视觉质量，我们采用了一种新颖的SDS++损失作为细节处理者，通过密集相机插值渲染来细化3D高斯分布。

5. 实验结果

我们在表1中展示了我们的框架与几个基线模型的定量比较。在本次实验中，我们使用了T3Bench的Single-Object-with-Surroundings2数据集，该数据集包含100个与MVImgNet描述紧密匹配的提示。我们使用CLIP-Score、NIQE和BRISQUE指标来评估定量结果。对于不同方法生成的每个3D场景，我们渲染一个视频，并均匀采样36帧来计算每个指标的平均分数。对于没有自适应相机轨迹的基线模型，我们通过以固定高度围绕3D表示进行环绕来渲染视频。

BRISQUE和NIQE的结果表明，我们的方法在图像质量方面显著优于现有的基线模型。此外，CLIP-Score显示了我们的方法在不进行细化的情况下，将生成的图像与其文本描述对齐的卓越能力。这些结果强调了我们框架在生成高质量、语义对齐的3D场景方面的鲁棒性和有效性。

6. 总结 & 未来工作

在本文中，我们提出了一个名为Director3D的开放世界文本到3D生成框架，该框架能够生成具有自适应相机轨迹的真实世界3D场景。我们首先引入了一个摄影师（即Traj-DiT），它可以根据文本生成密集视角的相机轨迹。然后，分别提出了一个装饰者（即GM-LDM）和一个细节处理者（即SDS++损失），用于初步生成和进一步细化，其中3D高斯分布作为3D场景表示。我们通过大量实验证明了该方法的有效性。我们相信我们的工作对文本到3D生成领域做出了重要贡献，特别是在发现利用真实世界多视角数据集进行逼真3D生成的潜力方面。我们未来的工作包括扩大生成范围、提高模型效率和质量以及利用更多数据集。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	低成本+体积小 +重量轻+抗高反	YA001高精度3D相机
‍	抗高反+无惧黑色+半透明	KW-D \| 高精度3D结构光开源相机
	硬件+源码‍	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多