人生中顿悟的一刻到来时,阿姆农·沙舒瓦还是一个年轻的计算机专业本科生。那时他正坐在耶路撒冷一所大学的图书馆里阅读一篇用希伯来语撰写的文章,当时他兴奋地发现,在很多方面,人的视网膜与计算机十分相似。文章的作者是西蒙·厄尔曼,计算机视觉研究先驱大卫·马尔的第一位博士生,也是人类与机器视觉专家。意识到人类的眼睛中也进行着计算后,沙舒瓦对这一过程十分着迷,他决定追随厄尔曼的研究脚步。
在麻省理工学院,沙舒瓦师从计算机视觉科学家汤米·波乔和埃里克·格里姆森。波乔的研究涉及神经科学和计算机科学,而格里姆森后来成了麻省理工学院的副校长。当时,从捕捉到识别形状的过程中看似没有障碍,但实际上编写识别软件却十分艰难。即便是在今天,“场景理解”的目标仍可望而不可即,例如,不仅识别出一个女人,同时也要识别出她可能做些什么。人们也仅是在一些小的领域取得了值得注意的进步。举例来说,现在很多汽车都能够及时识别出行人或自行车,从而在发生碰撞前自动减速。
通过脚踏实地钻研这些琐碎的技术,沙舒瓦逐渐成长为一位大师。在学术世界,脑科学家与计算机科学家还在争论不休的时候,他的立场很简单:“飞机不会扇动翅膀,但这并不意味着它们不能飞。”
研究生毕业后,沙舒瓦回到了以色列。而在这之前,他还开办了自己的公司Cognitens,利用视觉建模技术对工业零部件进行精准三维建模。这些图像能准确到头发丝的级别,让从汽车到航天领域的制造商们能够对现有零件进行数字化建模,从而检查其是否合适。不过,他很快就出售了这家公司。
在寻找新项目时,沙舒瓦从以前一位汽车行业内的老客户口中听说,有汽车制造商希望能够实现加强计算机辅助驾驶的立体视觉技术。他们对沙舒瓦在多视觉几何领域的工作有所了解,于是询问他是否也对立体视觉有想法。他回答说:“这很好,不过你并不需要一个立体系统,一台简单的摄像机就够了。”他指出,在某些情况下,人类在闭上一只眼睛的情况下仍然能够判断距离。凭借自己创业家的功力,沙舒瓦成功说服通用汽车公司投资20万美元用于开发演示软件。他立即叫来了自己在商界的朋友谢夫·阿维拉姆,并建议创办一家新公司。他们给新公司起名叫“移动眼”(Mobileye),沙舒瓦亲自编写了台式机展示用的软件,然后展示了摄像头的机器视觉,这对当时的汽车制造商来说就好像是科幻小说一般。
项目开始6个月后,他从一个汽车行业的大型供应商处得知,通用汽车公司计划展开一场竞标,寻求一种用来警告驾驶员车辆偏离车道的方式。在这个项目上花了几个月的时间后,沙舒瓦在车道中保持行驶的软件写得初有成效,但沙舒瓦却意识到,对于愿意率先起步的公司来说,这可能还不够好。因此,这家羽翼未丰的公司很难一举胜出。
后来,他有了一个好主意。他在这款软件中补充了车辆检测功能,但告诉通用汽车公司这个功能存在错误,不要在意。“在下一个版本中我们会解决它,所以你们可以忽略它。”他说。这一句话就已足够,通用汽车公司为能够以低成本检测其他车辆从而提升车辆安全性的想法欣喜若狂,于是决定立即取消投标,并承诺为这家新公司提供项目资金。车辆检测能够推进新一代安全功能的研发,这些功能并不会取代驾驶员,而是通过隐形的传感器、计算机安全网来增强车辆的安全性能。诸如车道偏离预警、自适应巡航控制前方碰撞预警和防碰撞制动等技术正在迅速向前发展,并成为汽车的标准安全系统。
移动眼有机会成为全球汽车行业最大的人工智能视觉技术提供商之一,但沙舒瓦却有着更宏大的想法。在先后创建了两家公司之后,2001年,他到斯坦福大学继续自己的博士后研究,并与塞巴斯蒂安·特龙共用一间办公室。两人终将成为自驾驶汽车的先驱。
沙舒瓦追求的目标与特龙一致,但他的方法却更务实,而不是天马行空式的“登月”风格。他一直深受导师波乔的影响,后者一直崇尚用生物方法来研究视觉,这不同于依靠日益增强的计算机简单粗暴的力量来识别物体的方法。
移动眼视觉系统“眼”中的世界
像谷歌一样,这些以色列人也进行过深入研究,开发出了自动驾驶所必需的技术。谷歌可能会计划与新贵特斯拉合作,发起对汽车行业的竞争,但沙舒瓦却对汽车行业的文化极其敏感,这从移动眼目前合作的客户中就可以窥见。这意味着他的视觉系统设计必须控制成本,即使是高端汽车,花费也不能超过数百美元,而对一辆普通的雪佛兰轿车,成本甚至不可以过百。
谷歌和移动眼采用了不同方法来解决相同的问题,他们需要帮助车辆知晓周围的情况,在高速条件下,这些判断需要优于人类的准确度。谷歌的系统需要通过雷达、视频、Velodyne LIDAR传感器对汽车周围的环境进行精细到厘米级别的测绘,增强通过街景车采集到的数据。这些谷歌汽车是通过与谷歌云的无线连接来获得地图数据的。这一网络对谷歌汽车导航系统来说就好像一根无形的电子拐杖,确认着传感器看到的周围世界。
全球地图数据库能让谷歌的工作变得更容易。谷歌的一位工程师透露说,在这一项目启动之后,他们惊讶地发现,这个世界上竟然有这样多的变化。不仅高速公路的车道经常会因为维护等问题而出现变化,“连整座桥都会移动”。他说,即使不依靠数据库,谷歌也能做到很多似乎只有人才能办到的事情,比如无缝地融入高速公路的车流,或是在车水马龙的密集市区应对时停时走的交通。
与配有《星际迷航》启动音的谷歌汽车不同的是,移动眼在切换如自动驾驶模式的时候只有一个小小的视觉提示。移动眼奥迪在高速公路上飞驶,有时候速度会超过每小时90公里。在通向死海的峡谷中蜿蜒盘旋而下时很难感到放松。而在一辆自驾驶汽车中,对新手驾驶员来说,非常具有挑战性的是前方有车因红绿灯而放慢了速度的时候。这需要所有人的意志力:让脚离开刹车板,并给予这辆车足够的信任。果然,它逐渐减速,平稳地停在了前面那辆车后。
谷歌汽车带给人们的体验是一种分离感——幕后那些略显怪异的机器智能设备,还有那些遥远的云计算机。而与此形成鲜明对比的是,2013年的测试阶段证明,移动眼汽车能让车上的乘客敏锐地感觉到机器援助的存在。这款车需要在车道内略微移动,然后结束停车状态并绝尘而去——这样的行为无法激发人们的信心。不过,如果你了解底层技术,这样的插曲就不会那么让人害怕了。移动眼奥迪的视觉系统采用了一个“单眼”相机。第三个维度——深度,是通过沙舒瓦和他的研究人员设计的一个巧妙的算法计算得出的,这一技术也被称为“从运动中构建”,只需要略微移动车身,这辆汽车就能绘制出前方世界的3D地图。
自驾驶汽车的下一阶段将在2020年之前到来——车辆将接手日常驾驶任务,不仅在塞车时,每天通勤的路上也是。通用汽车公司将这一功能称为“超级巡航”(Super Cruise),它标志着人类司机的角色将会出现转变——从手动控制到监督。
本文内容摘选自湛庐文化出品的《与机器人共舞》一书。