行业分享

如何让计算机像人一样“耳聪目明”?给它双眼和大脑!




视觉是人类感知最重要的途径之一,也是信息量最大的感知途径之一。人眼接收的视觉数据经过大脑处理从而完成各种复杂的任务。依靠视觉和大脑的协作,我们能准确抓取杯子,能精确地辨识人脸,能在行走中快速躲避障碍物,能自如地驾驶汽车,能完成复杂的装配工作……


我们不妨大胆设想,如果机器拥有人一样的双眼和大脑,是不是就可以和人一样“耳聪目明”,完成很多复杂的任务?




现状:计算机输入端存在缺陷




图像处理和计算机视觉技术历经几十年的发展,在诸多领域产生了广泛的应用价值,例如人脸识别、三维环境感知、自动汽车驾驶等。然而,图像处理和计算机视觉虽然在处理“速度”和“精度”等方面性能都有大幅度提升,但在处理“维度”上却始终没有巨大突破。

 

输入端的缺陷是导致机器表现不佳的一个主要原因。


计算机视觉以相机采集的2D图像数据作为原始输入,经过人工智能的处理,来实现上述类似人的复杂功能。但目前其综合能力仍远不及人,尤其是在一些复杂环境下的视觉处理任务。例如,在复杂光照情况下的人脸识别、复杂结构的三维环境感知、真实路面上的自动汽车驾驶等如果一个人有视力障碍,纵然有最聪明的大脑也无法驾驶汽车。同样的,如果计算机的视觉输入端有缺陷,纵然有最“聪明”的人工智能也难以实现自动汽车驾驶。


叠境数字科技的使命就是“为机器加上像人一样的双眼和大脑”。


为了实现这一使命,叠境在光场和人工智能两方面潜心研究,深耕十余年。




光场,给计算机一双“慧眼”



人眼结构比世界上最精密的相机更加复杂,人眼能够感知到的视觉信息也比传统相机具有更大的数据密度和更高的数据维度。双眼除了可以采集到和相机一样的图像信息,还能感知到双目视差、移动视差、聚焦模糊三方面的三维立体信息。


叠境所研究的光场技术就是通过模拟人眼采集空间中的所有光线,从而提取出传统相机所不具备的多方面信息。


目前,叠境已经研发出向内360度光场相机、光场全景相机、阵列相机、双目光场相机等适用于不同场景应用的光场采集系统,并成功应用在了G20峰会VR全景宣传片,上海博物馆虚拟现实系统,伊利新品酪艺VR直播发布秀,第七届财新峰会VR直播、阿里巴巴“造物神计划”、腾讯“功夫世界杯”等一大批重要级项目上。


光场采集技术能模拟人眼去观察世界,其捕获的4D光场数据比传统2D图片数据能为人工智能带来更多有价值的输入信息。

 

同时,因为输入端与人眼类似,人工智能也会以与人脑相似的机理进行工作,从而实现真正意义上的“人工智能视觉”。因为光场的引入,相关领域将会得到本质的提升,从而逼近人的视觉能力。

 



深度融合人工智能,向未来迈进一大步




光场的采集仅仅只是实现人工智能视觉的第一步。叠境数字科技还大力开发类脑神经网络、深度学习等人工智能前沿技术。公司联合创始人之一马毅教授是人工智能领域的顶级大牛,在他的指导下,叠境在基于深度学习的三维环境感知、基于人工智能的自动化三维建模、基于机器学习的720度全景拼接等技术方面取得了显著成果。


现有的全景相机在拼接时存在一个致命的缺陷——拼缝。这是由于在图像拼接时缺少环境的三维深度信息,导致不同深度的场景被“压扁”到一个平面。因此,总有部分像素无法对齐。



叠境数字科技首次采用深度学习从单幅全景图中恢复出全景深度图,借助深度图可以有效地消除拼缝。



同时,通过对360度场景中的物体进行语义分析,识别出人物、沙发、桌子等突出主体。在进行全景拼接时主动避开场景中的突出主体,从而可以进一步改善全景观看的视觉效果。



叠境数字科技在光场建模方面积极采用人工智能的方法来减少建模过程中的人工干预。


 

为了生成高质量的三维模型,传统方法往往需要大量的人工处理。叠境建立了一套全自动的光场采集系统,可以采集最大直径3米的物体。同时,叠境自主研发了半自动光场建模算法和渲染算法,可以高效建立三维模型并逼真地显示出来。但这还不是叠境的最终目标。

  


预计在2017年底,叠境将基于人工智能实现零干预全自动的光场采集、建模和渲染。


届时,互联网上数以千万计的商品将通过叠境的光场建模流水线系统,快速、高效地生成数字模型,从而将现实物体批量建模到虚拟世界。


从此,穿越到美国第五大道购物,身临其境地参加顶级大学课程,与世界各地的朋友一起去旅行......都将不再是梦,Facebook所倡导的广域虚拟世界交互不再是梦,叠境一直以来的奋斗目标也真正从梦想走进现实!