麻省理工学院用深度学习教会计算机预测未来

  据外媒报道,通过部分基于人脑模型的算法,麻省理工学院的研究员让计算机可以通过分析照片去预测下一时刻的未来。

  麻省理工学院计算机科学和人工智能实验室(CSAIL)的一个项目学习了200万小时的在线视频,分析了不同画面之间的承接关系:行人穿过高尔夫球场,海浪冲刷海岸,诸如此类。目前,在观察一幅静态画面时,这一系统能生成约1.5秒钟长的短视频,对瞬时的未来做出预测。

  CSAIL研究生、论文第一作者卡尔·冯德里克(Carl Vondrick)表示:“这一系统试图学习,什么样的视频是可信的,你可能会看到什么样的动作。”相关论文将于本月在巴塞罗那的“神经信息处理系统”大会上发表。未来,该团队希望让系统基于更复杂的场景生成更长的视频。

  不过冯德里克表示,未来某天,这一系统的能力不仅仅是将照片转换成计算机生成的GIF动画。例如,在安全监控画面中,基于预测正常行为的能力,系统能分析出异常状况的发生,或是优化无人驾驶汽车的可靠性。他表示,对于无人驾驶汽车,如果系统发现异常状况,例如道路中出现从未见过的动物类型,那么车辆“可以做出探测,并判断:‘我从未见过这样的情况,所以我要停下,让司机来处理。’”

  为了开发这一系统,麻省理工学院的团队利用了深度学习技术。目前,深度学习正成为人工智能研究的中心。这一方法让苹果Siri和亚马逊Alexa等数字助手理解用户的意图,协助了Facebook和谷歌图像搜索和面部识别技术的发展。

  深度学习基于被称作神经网络的数学结构,能从大规模数据集中提取模式。专家表示,通过深度学习技术,计算机可以根据医学影像做出诊断,监控银行欺诈,预测用户订单模式,以及与人工司机一同驾驶汽车。

  旧金山创业公司Skymind CEO克里斯·尼克尔森(Chris Nicholson)表示:“对于许多重要问题,例如图像识别,深度神经网络的表现要比人脑更好。如果没有深度学习,我认为无人驾驶汽车在道路上会非常危险。如果有深度学习,无人驾驶要比人工驾驶更安全。”Skymind开发深度学习软件,并提供相应的咨询服务。

  神经网络接受低层次的输入信息,例如一张图片中的像素点,或一段音频中的小片段,并通过一系列虚拟神经层进行处理。通过对输入信息进行分析,每个数据单元将被分配不同的权重。深度学习中的“深度”意指,这样的神经层层次很多,通过协作的分析去识别数据中的复杂模式,从而理解从像素到基本图形再到复杂的图像,例如道路上的停止标志和红绿灯。为了训练神经网络,研究员需要用大数据集对其进行反复测试,实现权重的自动调整,促使网络的错误率逐步降低。

  尼克尔森表示,尽管对神经网络的研究可以追溯至数十年前,但过去10年业内取得的进展尤为明显。2006年,知名计算机科学家吉奥夫里·辛顿(Geoffrey Hinton)的一系列论文为深度学习的快速发展奠定了基础。目前,辛顿同时供职于谷歌和多伦多大学。

  2012年,包括辛顿在内的一个团队首次利用深度学习技术赢得了一项颇具盛名的计算机科学竞赛,即ImageNet大规模视觉识别挑战赛。在图像分类比赛中,该团队的软件以较大的优势胜过了竞争对手,错误率为15.3%,远低于第二名的26.2%。

  今年,谷歌设计的深度学习系统击败了全球顶尖的围棋高手。许多专家此前认为,人工智能成为围棋大师还要数十年时间。这一名为AlphaGo的系统通过自己与自己的对弈逐渐掌握了围棋技巧。尽管计算机在很久之前就击败了人类的象棋大师,但许多专家认为,让计算机掌握围棋的难度更大,因为围棋存在的可能性要更多。

  今年11月,牛津大学的一个小组公布了基于深度学习的唇语阅读系统,其准确性胜过人类专家。本周,包括谷歌研究员在内的一支团队在《美国医学协会期刊》上发表论文称,深度学习可以识别糖尿病视网膜病变,诊断准确率与受过训练的眼科医师相仿。许多糖尿病人都会罹患这样的疾病,进而引起视力的丧失。

  谷歌产品经理、论文第一作者莉莉·彭(Lily Peng)表示:“许多无法得到医生诊断的患者可以通过这种方式接受诊断,尤其是对医疗条件不佳的人群而言。这一人群中的糖尿病发病率正在上升,而眼科医师的数量则没有变化。”

  与深度学习取得的许多成功案例类似,对视网膜病变的研究也基于通过大数据的训练。这一大数据集中包含约12.8万张已被眼科医师分类的图片。深度学习是属于互联网时代的一项技术。就在几年前,这样大规模的数据集看起来还过于庞大,甚至无法被存入一块硬盘中。

  冯德里克表示:“如果没有足够多的数据,那么深度学习就不太有用。如果很难获得数据,那么深度学习就无法带来有意义的进展。”

  在学会同样技