作者简介:
吴双,原百度研究院硅谷人工智能实验室高级研究员,百度美国研发中心高级架构师。美国南加州大学物理博士,加州大学洛杉矶分校博士后,研究方向包括计算机和生物视觉,互联网广告算法,互联网文本和视频的推荐系统,语音识别和自然语言处理,曾在NIPS等国际会议中发表文章。
刘少山,PerceptIn联合创始人。加州大学欧文分校计算机博士,研究方向包括智能感知计算、系统软件、体系结构与异构计算。现在PerceptIn主要专注于SLAM技术及其在智能硬件上的实现与优化。曾在百度美国研发中心负责百度无人车系统架构与产品化。
2. 光学雷达在无人驾驶技术中的应用
无人驾驶汽车的成功涉及高精地图、实时定位以及障碍物检测等多项技术,而这些技术都离不开光学雷达(LiDAR)。本文将深入解析光学雷达是如何被广泛应用到无人车的各项技术中。文章首先介绍光学雷达的工作原理,包括如何通过激光扫描出点云;然后详细解释光学雷达在无人驾驶技术中的应用,包括地图绘制、定位以及障碍物检测;最后讨论光学雷达技术目前面临的挑战,包括外部环境干扰、数据量大、成本高等问题。
在实际应用中,LiDAR也面临着许多挑战,包括技术(空气中悬浮物)、计算性能以及价格挑战。要想把无人车系统产品化,我们必须解决这些问题。
3. GPS及惯性传感器在无人驾驶中的应用
本文是无人驾驶技术系列的第五篇,着重于GPS以及惯性传感器在无人驾驶中的应用。GPS是当前行车定位不可或缺的技术,但是由于GPS的误差、多路径以及更新频率低等问题,我们不能只依赖于GPS进行定位。惯性传感器(IMU)是可以检测加速度与旋转运动的传感器。基础的惯性传感器包括加速度计与角速度计。惯性传感器拥有很高的更新频率,可以跟GPS形成互补。而使用传感器融合技术,我们可以融合GPS与惯性传感器数据,各取所长,以达到较好的定位效果。
4. 基于计算机视觉的无人驾驶感知系统
本章节里,作者首先介绍了KITTI的数据集,用来作为基于计算机视觉的无人驾驶感知方案的算法验证。之后又介绍了无人驾驶感知方面的三个研究内容:光流(Optical Flow)和立体视觉、物体的检测和跟踪以及视觉里程计算法。
Optical Flow和立体视觉
在今年6月于美国拉斯维加斯召开的CVRP大会上,多伦多大学的Raquel Urtasun教授和她的学生改进了深度学习中的Siamese网络,用一个内积层代替了拼接层,把处理一对图片的时间从一分钟左右降低到一秒以内。
Siamese结构的深度神经网络
如图所示,这个Siamese结构的深度神经网络分左右两部分,各为一个多层的卷积神经网络(CNN),两个CNN共享网络权重。Optical Flow的偏移矢量估计问题转化为一个分类问题,输入是两个9x9的图片块,输出是128或者256个可能的偏移矢量y
。通过从已知偏移矢量的图片对中抽取的图片块输入到左右两个CNN,然后最小化交叉熵(cross-entropy):
我们可以用监督学习的方法训练整个神经网络。
i
是像素的指标。y_i
是像素i
可能的偏移矢量。p_gt
是一个平滑过的目标分布,用来给一两个像素的预估误差反馈一个非0的概率,gt
表示ground truth。p_i (y_i,w)
是神经网络输出的给定w
时y_i
的概率。
在KITTI的Stereo2012数据集上,这样一个算法可以在0.34秒完成计算,并达到相当出色的精度,偏移估计误差在3-4像素左右,对大于3像素的偏移估计误差在8.61像素,都好于其他速度慢很多的算法。
在得到每个像素