Waymo利用AI生成摄像头图像，用于自动驾驶仿真_数字科技

日前，Waymo表示开发了新方法SurfelGAN，利用自动驾驶汽车收集的传感器数据，通过AI生成用于仿真的摄像头图像。SurfelGAN使用纹理映射表面元素(surface elements，简称surfel)重建场景和摄像头视角，以获取位置和方向。

诸如Waymo这样的自动驾驶汽车公司利用仿真环境来训练、测试和验证系统，然后再将系统部署到现实世界的车辆中。设计模拟器有多种方法，但一些基础的模拟器忽略了对于场景理解至关重要的线索，比如行人的手势和闪烁的灯光。而像WaymoCarCraft这样更复杂的模拟器，由于试图对材料进行高度精确的建模，因此需要耗费大量的计算资源，以确保像激光雷达和雷达等传感器在真实世界中可靠地工作。

随着SurfelGAN的推出，Waymo提出了一种更简单的、数据驱动的方法来模拟传感器数据。SurfelGAN从真实世界的激光雷达传感器和摄像头获取数据，创建并保存场景中所有物体的3D几何、语义和外观的丰富信息。然后，再从不同的距离和视角渲染仿真场景，以进行重建。

Waymo发言人称，“在仿真中，当自动驾驶汽车和其他道路使用者的移动轨迹发生变化时，系统会生成真实的视觉传感器数据，帮助我们在新的环境中建模场景。部分系统正在生产中。”

SurfelGAN利用纹理增强表面元素地图的场景表示方法，这是一种紧凑、易于构造的场景表示方法，能够在保留传感器信息的同时保持合理的计算效率。SurfelGAN将激光雷达扫描到的体元(3D空间中定义点的图形信息的单位)转换成表面元素盘(surfel discs)，可根据摄像头数据估算颜色，然后对这些元素进行后处理，以处理光线和姿态的变化。

为了处理车辆这类动态物体，SurfelGAN还使用了Waymo Open Dataset中的注释。兴趣物体的激光雷达扫描数据不断积累，以便在仿真中Waymo可以生成汽车和行人的重建。

SurfelGAN中的生成对抗网络(GAN)模块负责将表面元素图像渲染转换成逼真的图像。其生成器模型从使用分布采样的随机噪声中生成合成示例，这些示例连同来自训练数据集的真实示例一起反馈给鉴别器，而鉴别器视图区分这两者。生成器和鉴别器的能力不断提升，直到鉴别器无法区分合成示例和真实示例。

SurfelGAN模块以一种无人监管的方式进行训练，意味着其在没有参考已知、标记或注释结果的情况下推断语料库中的模式。有趣的是，每当鉴别器正确地识别合成示例时，就会告诉生成器如何调整输出，从而更加真实。

Waymo进行了一系列测试来评估SurfelGAN的表现，给它输入了798个训练序列，包括20秒的摄像头数据和激光雷达数据，以及来自Waymo Open Dataset数据集中关于车辆、行人和骑行者的注释。SurfelGAN团队还创建和使用新的数据集Waymo Open Dataset-Novel View，为原始数据中的每一帧创建全新的表面元素图像渲染。

最后，Waymo收集了未注释摄像头图像的额外序列(共9800个，每个100帧)，并构建了一个称为双摄像头后数据集(Dual-Camera-Post Dataset，DCP)的语料库，以测量SurfelGAN生成图像的真实度。DCP可处理两辆车同时观察同一场景的情况；Waymo使用来自第一辆车的数据重建场景，并在第二辆车的精确姿态下渲染表面元素图像。

研究人员称，当SurfelGAN生成的图像提供给现成的车辆探测器时，最高质量的合成图像达到了与真实图像相同的标准。SurfelGAN还改进了DCP(双摄像头后数据集)中的表面元素渲染，在一定距离内生成更逼真的图像。此外，研究人员还证明，SurfelGAN生成的图像还将车辆探测器的平均精度从11.9%提高到13%。

Waymo指出SurfelGAN并不完美。例如，它有时无法从损坏的几何图形中恢复，导致车辆看起来不真实。在没有表面元素信息的情况下，AI表现出了很大的差异。尽管如此，研究人员仍然认为SurfelGAN是未来动态物体建模和视频生成仿真系统的坚实基础。