CVPR2025自动驾驶世界模型论文笔记:DriveDreamer4D, ReconDreamer

【如果笔记对你有帮助,欢迎关注&点赞&收藏,收到正反馈会加快更新!谢谢支持!】

论文1:DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

  • 开源代码:GitHub - GigaAI-research/DriveDreamer4D: [CVPR 2025] DriveDreamer4D
  • 核心思想:用世界模型(world models)的先验知识来增强 4D 场景表示
  • 为什么需要世界模型?
    • 现有的闭环仿真主要用Nerf、3DGS等重建技术,生成场景受限于训练数据分布(比如训练数据大多数是直行,那重建出来的大多也是直行的场景),所以在复杂操作(如变道、加速、减速)时表现不佳。然而世界模型能够生成多样化的驾驶视频。
  • 使用 4DGS(3DGS+时间维度)表示4D场景
    • 把场景中的物体表示为一堆高斯球(有椭球形状、位置、透明度、颜色)
    • 用时间场模块预测每个timestep的高斯球变化情况
    • 通过2D投影,算每个像素的颜色(透明度*颜色*高斯球权重),得到图像
    • 损失函数:RGB 损失、深度损失和 SSIM 损失(结构相似性指数,度量两幅图像间的结构相似性)
  • 使用扩散模型实现视频生成的世界模型
  • DriveDreamer4D方法
    • 由两部分组成:新型轨迹生成模块(NTGM)和 表亲数据训练策略(CDTS)
    • Novel Trajectory Video Generation 新型轨迹生成模块
      • 文本指令生成多样化复杂轨迹(text-to-trajectory)→ 安全性评估(是否在可行驶区域内,避免与其他交通参与者碰撞)→ 将新轨迹的3D box、HDMap投影到相机视角 → (+初始帧和文本指令)给视频扩散模型 → 生成符合新轨迹的视频
    • Cousin Data Training Strategy 表亲数据训练策略
      • 目的:更好地将生成的数据整合到4DGS中
      • 如何理解这里的 Cousin Data:
        • 真实视频的每一帧(比如车辆直行的画面)都有一个对应的模拟帧(比如同一时刻车辆变道的模拟画面)。
        • CDTS将这两类数据按时间顺序一一配对,确保模型同时看到同一时间点下的真实和模拟场景,来帮助它理解两者之间的联系。
    • 损失函数组成
      • 原始数据损失L_{ori}: 监督原始轨迹数据的重建,包含RGB损失、深度损失和SSIM损失
      • 新轨迹数据损失 L_{novel}监督生成的新轨迹数据,仅包含RGB和SSIM损失
      • 正则化损失 L_{reg} 感知特征对齐原始和新轨迹的渲染结果
  • 实验(不同新轨迹视角下的生成视频质量评估)
    NTA-IoU(Novel Trajectory Agent IoU):评估新轨迹视图中前景交通元素(如车辆)的时空连贯性。通过计算渲染图像中检测到的 2D 边界框与通过几何变换投影到新视图的真实 3D 边界框之间的IoU来衡量。
     NTL-IoU(Novel Trajectory Lane IoU):评估新轨迹视图中背景交通元素(如车道线)的时空连贯性的指标。它通过计算渲染车道线与真实车道线之间的mIoU来衡量。

论文2:ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration

  • 开源代码:https://github.com/GigaAI-research/ReconDreamer
  • 过去工作的问题:在渲染新轨迹(尤其是大视角偏移,如跨多车道)时会出现伪影(ghosting artifacts)和时空不一致性(spatiotemporal incoherence)
  • 核心思想:逐步整合世界模型知识来增强驾驶场景重建
  • ReconDreamer方法:
    • DriveRestorer:用于修复渲染视频中的伪影。用修复数据集(降质视频帧+对应的真值视频帧)训练,使用掩码策略,让网络学习修复能力。
    • 渐进式数据更新策略(Progressive Data Update Strategy)
      • 混合数据集:原始轨迹视频数据集 + 修复后的新轨迹视频数据集
      • 通过逐步扩展新轨迹来生成大范围驾驶视频,并使用 DriveRestorer 修复这些视频,然后将修复后的视频用于更新训练数据集。
  • 实验(超越DriveDreamer4D)

### 关于2025CVPR会议中的世界模型自动驾驶的研究与发展 #### 1. 自动驾驶技术的发展趋势 近年来,随着传感器技术和计算能力的进步,自动驾驶领域取得了显著进展。弱监督学习方法被广泛应用于动作识别任务中,在减少标注成本的同时保持较高的准确性[^1]。 #### 2. 数据集的作用及其影响 为了验证算法的有效性和鲁棒性,研究人员通常会在公开的数据集上进行测试。例如,在KITTI数据集上的实验表明不同任务所需的训练轮次有所不同;其中联合任务(united task)需要最多达20万步的迭代次数来达到较好的效果[^2]。Cityscapes数据集则专注于城市环境下的语义理解挑战,提供了高质量的真实场景图像用于训练和评估视觉感知系统[^3]。 #### 3. 未来展望与潜在方向 对于即将到来的CVPR 2025会议而言,预计会有更多围绕着如何构建更高效的世界模型以及提升自动驾驶安全性方面的探讨。这可能涉及到以下几个方面: - **增强现实世界的模拟精度**:通过改进物理引擎并引入更多的动态因素使得仿真平台更加贴近实际路况。 - **多模态融合感知框架的设计**:利用激光雷达、摄像头等多种类型的传感设备获取的信息来进行综合判断,从而提高决策系统的可靠性。 - **强化学习的应用扩展**:探索基于奖励机制的学习策略以优化路径规划及避障等功能模块的表现。 ```python # 示例代码展示了一个简单的RNN结构实现细粒度到粗粒度建模的过程 import torch.nn as nn class RNNModel(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(RNNModel, self).__init__() self.rnn = nn.RNN(input_size, hidden_size, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): out, _ = self.rnn(x) out = self.fc(out[:, -1, :]) return out ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值