由于数据工程、仿真测试工程,咱们不得不进入AIGC图片视频生成领域。兜兜转转,这一篇与智驾场景特别密切。23年4月,英伟达Nvidia联合几所大学发布了带文本条件融合、时空注意力的Video Latent Diffusion Models。提出一种基于LDM的高分辨率视频合成方法,通过在压缩的低维潜空间训练扩散模型,实现高质量图像合成并避免过多的计算需求,可用于生成高分辨率且时间连贯的驾驶场景视频,并能够将文本转化为视频进行创意内容创作。
内容相当硬核,主要贡献有:
- 长约 5 分钟高分辨率、时间连贯的驾驶场景视频生成(约1年后发布的Sora,60秒)。
- 个性化文本到创意视频内容生成的首次实现。
Video Latent Diffusion Models 堆栈:
- 将图像LDM转换成视频生成器。在图像LDM的潜在空间中引入时间维度,并在编码的图像序列上训练这些时间层,同时固定空间层。具体来说利用预先训练或者现有图像LDM,首先生成高质量关键帧,在渲染成T个连续帧的视频时对样本进行时间对齐,最后形成连贯的视频。
- 改造为预测模型以生成较长视频。按照预测模型prediction models的方式训练模型,即给定S个context frame