世界模型SOTA!华科&小米Genesis:跨模态时空一致性,更真实更可用!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享华中科大×小米最新的工作!Genesis:突破时空与跨模态一致性的多模态驾驶场景联合生成框架!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『多模态生成』技术交流群

论文作者 | Xiangyu Guo等

编辑 | 自动驾驶之心

论文题目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency

论文链接:https://arxiv.org/abs/2506.07497

Github链接:https://github.com/xiaomi-research/genesis

摘要

本文提出了 Genesis,这是一个用于联合生成多视角驾驶视频与激光雷达序列的统一框架,能够实现时空与跨模态一致性。Genesis 采用两阶段架构:首阶段将基于 DiT 的视频扩散模型与 3D 变分自编码器(3D-VAE)编码深度融合,次阶段构建具备鸟瞰视角(BEV)感知能力的激光雷达生成器,该模块融合了基于 NeRF 的渲染技术与自适应采样策略。两种模态通过共享潜在空间直接耦合,从而在视觉与点云领域实现连贯的生成。为了以结构化语义引导生成过程,本文引入了 DataCrafter(一个基于VLM的数据标注模块),可提供场景级与实例级的监督信号。在 nuScenes 基准数据集上的大量实验表明,Genesis 在视频与激光雷达指标上均达到了当前SOTA水平。并且对分割与 3D 检测等下游任务具有显著增益,验证了生成数据的语义保真度与实际应用价值。

主要贡献

本文的主要贡献总结如下:

  • 统一的多模态生成架构。Genesis 采用统一的pipeline,视频和 LiDAR 分支都在共享的潜在空间内运行。视觉和几何通过一种新颖的跨模态调节机制直接耦合,实现跨模态的一致时间演变和几何对齐,而无需依赖occupancy或体素中间体。

  • 通过 DataCrafter 进行结构化语义监督。为了提高语义可控性,本文引入了 DataCrafter,这是一个基于视觉语言模型构建的caption数据处理模块。它提取多视图、场景级和实例级描述,这些描述融合到密集的语言引导式先验中。这些caption数据为视频和 LiDAR 生成器提供了详细的语义指导,从而产生不仅逼真而且可解释和可控的输出。

相关工作

如图 1 所示,现有的驾驶场景生成方法通常侧重于以单一模态生成数据,通常是 RGB 视频或 LiDAR 点云。虽然这些方法显著推动了驾驶场景生成领域的发展,但它们忽视了多模态生成的协同潜力,并且在将 RGB 视频与各种传感器数据对齐方面缺乏一致性,从而导致实际应用受到限制。其中许多方法依赖于仅以粗略空间先验为条件的一步式布局到数据管道,例如 BEV map或 3D box,这限制了它们捕获复杂场景动态和细粒度语义的能力。为了将驾驶场景生成推向多模态领域,最近的工作,如 UniScene 引入了用于多模态生成的占用网格,但其解耦设计和弱语义监督限制了跨模态对齐和场景保真度。此外,与大多数现有的多模态生成方法一样,目前的方法通常依赖于有限的语义监督,通常以粗略标签或通用标题模型的形式而没有充分利用现代视觉语言模型 (VLM) 的细粒度描述能力。这种缺乏结构化语义基础限制了生成场景的保真度、可控性和上下文对齐。

图 1:多模式场景生成pipeline比较:(a) 纯视频生成,(b) 纯 LiDAR 生成,(c) 基于Occ的双分支生成,(d) 本文的Genesis。

具体工作

图2:用于联合视频和激光雷达生成的Genesis架构概述。双分支设计通过相机和激光雷达路径处理共享语义条件,使用STDiT模块进行时空生成,并使用鸟瞰图(BEV)编码器进行几何对齐。

DataCrafter 模块

图3:用于多视角caption数据生成的DataCrafter流程。视频通过基于视觉语言模型(VLM)的质量检查器进行分割和过滤(1-2),然后生成每个视角的caption数据,并融合为连贯的结构化描述(3-4)。step 1-4用于训练,而推理时仅使用step 3-4。

本文提出了 DataCrafter 是专为多视角自动驾驶视频设计的caption数据生成模块,其核心目标是通过视觉语言模型提取细粒度场景语义,为多模态生成提供结构化监督。具体流程如下:首先,将多视角输入视频  通过场景边界检测器分割为片段 ,每个片段都由基于视觉语言模型的模块进行评分:

其中Q项表示由视觉语言模型得出的子分数,  为固定权重。

为确保重叠视图间的一致性,多视角场景描述  经预训练 VLM 的语言编码器 和冗余消除函数 处理,去除冗余并生成统一语义表示 。最终,每个片段生成层次化场景描述。

其中   编码全局场景语境(如天气、道路类型、时间),每个物体实例由类别 、边界框 和接地描述 构成。该模块通过分层设计实现跨时间和视角的场景描述生成,为视频和 LiDAR 生成提供细粒度语义引导,提升生成内容的可控性与语义保真度。

视频生成模型

如图2中camera_branch,视频生成模块致力于实现多视角视频的连贯生成,其核心是在基于DiT的扩散主干网络基础上,通过引入3D感知潜在编码和场景级先验条件来保障空间对齐、时间一致性与语义保真度。具体而言,首先构建包含车道段、人体姿态关键点和3D车辆边界框的结构化BEV布局,将其投影到各视角2D图像平面形成语义控制图,再通过Control-DiT模块的交叉注意力机制在每个去噪时间步融入这些结构化先验,实现对生成过程的引导。同时,利用YOLOv8x-Pose检测行人姿态并投影到各视角,以此增强动态场景的语义表达。在潜在编码方面,借助3D变分自编码器将多帧BEV草图压缩为潜在表示,解码器从去噪词元中重建BEV语义,通过交叉熵损失、KL散度和Lovasz损失的联合优化,确保语义信息的准确捕捉。此外,通过DataCrafter模块生成的场景描述经T5编码器处理为文本嵌入,与BEV草图编码后的特征共同作为条件输入DiT块,通过交叉注意力实现高层语义对生成的调制。最后,模块集成的语义对齐控制Transformer通过控制注意力将语义特征注入扩散块早期阶段,并结合空间自注意力、跨视角注意力和时间注意力机制,全面保障多视角视频生成的时空连贯性与语义保真度。

激光雷达生成模型

如图2中lidar_branch,激光雷达生成模块致力于生成几何精确且时空连贯的点云序列,通过点云自动编码器与时空扩散模块的协同设计,结合跨模态语义条件实现多传感器数据的一致性生成。其核心架构如下:首先,点云自动编码器将稀疏点云体素化为BEV网格,利用Swin Transformer骨干网络压缩为潜在特征,再通过Swin解码器与NeRF渲染模块重建点云,过程中采用空间跳跃算法减少空网格误差,并通过深度L1损失、占用损失和表面正则化损失优化训练,同时引入后处理过滤噪声点。时空扩散模块以自动编码器的潜在特征为基础,采用双DiT网络结合ControlNet架构,集成场景描述、道路草图等语义条件,以及3D边界框几何条件;为保证跨模态一致,通过LSS算法将视频分支的RGB图像转为BEV特征,与道路草图特征拼接后输入ControlNet。扩散过程中,潜在词元通过交叉注意力融合语义与几何嵌入,并利用STDiT-Block-L的多头自注意力机制维持时间序列的几何连贯性,整体采用整流流调度提升生成质量。该模块通过BEV特征压缩与NeRF渲染解决点云稀疏性问题,借助跨模态条件实现视觉与几何模态的空间对齐,为自动驾驶多传感器数据生成提供了兼顾几何精确性与语义一致性的解决方案。

实验结果

视频生成结果

在无首帧条件设定下,本文的方法实现了83.10的多帧FVD和14.90的多帧FID,优于DriveDreamer-2、MagicDrive-V2和Drive-WM等先前的工作。在有首帧条件设定下,本文的方法进一步提升至16.95的FVD和4.24的FID,与MiLA 相比展现出具有竞争力的结果,同时保持了时间一致性和结构保真度。在噪声潜在设定下,在6019个样本上实现了67.87的FVD和6.45的FID,超过了UniScene报告的先前最佳结果。

LiDAR 生成结果

表2报告了先前最先进的方法与本文提出的Genesis框架在激光雷达序列生成性能方面的定量比较。评估遵循HERMES 的设定进行,在水平面[−51.2, 51.2]米以及高度[−3, 5]米的空间范围内,使用 Chamfer distance作为主要指标。在短期和长期预测方面,Genesis始终优于现有方法。在预测时长为1秒时,它的 Chamfer distance达到0.611,比之前的最佳值(HERMES 的0.78)高出21%。在预测时长为3秒时,优势扩大到相对减少45%(从1.17降至0.633)。

下游任务实验

本文的方法在多个下游感知任务上评估了生成数据的效用。如表5所示,本文的方法在BEVFormer 3D目标检测中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文评估了生成数据在 BEVFusion 3D目标检测框架上的有效性。在所有设置中,本文的方法都取得了一致的改进,mAP 从 66.87 提高到 67.78,NDS从 69.65 提高到 71.13。摄像头和激光雷达模态的联合生成实现了的最高增益(+0.91 mAP / +1.48 NDS),证明了多模态生成的互补优势。

定性结果

图4:LiDAR 和多视角视频的联合生成。以路口布局为条件,生成空间对齐的激光雷达和摄像机视图。

图5:视频生成的定性比较。从上到下:(1) GT,(2) Road Sketch,(3) Panacea,(4) MagicDrive,(5) Ours。

Panacea存在幻觉纹理和几何对齐错误的问题。MagicDrive出现车辆变形和结构损坏的情况。相比之下,本文的方法保留了准确的布局、物体形状和背景完整性。

图6:昼夜的可控生成。通过改变场景级条件,本文的方法可以生成与同一基础地图和物体布局对齐的一致多视图视频。

图7:以轨迹为条件的新颖视图合成。给定地面真实轨迹(中),本文通过将自我路径右移 4 米(下)来修改布局(上)。在这些布局变化下,本文的模型在所有视图中生成了合理且一致的场景。


自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值