首页 首页 云计算 查看内容

这是全球首份AR报告 2万字告诉你它为什么比VR还酷

木马童年 2018-9-14 20:40 7 0

腾讯科技“VR次元”出品 监制:高宇雷 孔令舒 统筹:孙实 设计:于春慧 继智能手机、平板电脑之后,虚拟现实(VR)与增强现实(AR)有潜力成为下一个重大通用计算平台。 从当前来看,更多的公司选择从VR领域进 ...

腾讯科技“VR次元”出品

监制:高宇雷 孔令舒

统筹:孙实

设计:于春慧

继智能手机、平板电脑之后,虚拟现实(VR)与增强现实(AR)有潜力成为下一个重大通用计算平台。

从当前来看,更多的公司选择从VR领域进行切入,各大研究公司、投行针对VR领域的研究报告也层出不穷,相比之下,AR领域却稍显平淡。

腾讯科技旗下VR次元发布全球首份AR行业报告,在这份报告中,我们将对AR的发展趋势、未来的挑战、潜在应用领域、可能创造和颠覆的市场进行分析和预测。

最后,感谢亮风台研发总监吴仑博士撰写了AR工作原理、关键技术的相关章节。

特别提示:微信上搜索“qqtechvr”,“VR次元”微信公众号,回复“AR”,即可获得AR报告PDF版。

VR和AR有着不同的应用领域、技术和市场机会,因此区分两者之间的不同至关重要。

从技术角度来看,AR是将计算机生成的虚拟世界套在现实世界上,即把数字想象世界加在真实世界之上。最典型的AR设备就是谷歌(微博)眼镜。这种智能眼镜将触控板、摄像头以及LED显示器结合起来,通过显示器,用户可以联网,并在视野内使用地图、电子邮件等服务。其他知名的AR产品还有微软的HoloLens,创业公司则以Magic Leap为典型代表。

1、融合虚拟和现实:与VR技术不同的是,增强现实技术不会把使用者与真实世界隔开,而是将计算机生成的虚拟物体和信息叠加到真实世界的场景中来,以实现对现实场景更直观深入的了解和解读,在有限的时间和有限的场景中实现与现实相关知识领域的理解。增强的信息可以是与真实物体相关的非几何信息,如视频、文字,也可以是几何信息,如虚拟的三维物体和场景。

2、实时交互:通过增强现实系统中的交互接口设备,人们以自然方式与增强现实环境进行交互操作,这种交互要满足实时性。

3、三维注册:“注册”(这里也可以解释为跟踪和定位)指的是将计算机产生的虚拟物体与真实环境进行一一对应,且用户在真实环境中运动时,也将继续维持正确的对准关系。

VR是让用户置身于一个想象出来或者重新复制的世界,或是模拟真实的世界。VR领域主要的产品包括Oculus、索尼PlayStation VR、HTC Vive和三星Gear VR。(有关VR更多的情况,可VR次元微信公众号,回复“高盛”和“德银”,分别获得高盛VR中文版报告和德银VR中文版报告)

区分VR和AR的一个简单的方法是:VR需要用一个不透明的头戴设备完成虚拟世界里的沉浸体验,而AR需要清晰的头戴设备看清真实世界和重叠在上面的信息和图像。

从目前来看,AR比较适合服务企业级用户,而VR同时适用于消费者和企业用户。有些情况下,两者还会出现重叠市场。例如,目前大多数游戏基于VR研发,但微软也用HoloLens重新创作了《我的世界》这样的游戏。

AR技术的起源可追溯到“VR之父”Morton Heilig在上个世纪五、六十年代所发明的Sensorama Stimulator。

Heilig是一名哲学家、电影制作人和发明家。他利用他在电影拍摄上经验设计出了Sensorama Stimulator,并在1962年获得了专利。

Sensorama Stimulator使用图像、声音、风扇、香味和震动,让用户感受在纽约布鲁克林街道上骑着摩托车风驰电掣的场景。尽管这台机器大且笨重,但在当时却非常超前。令人遗憾的是,Heilig没有能够获得所需的资金支持让这个发明商业化。

AR历史上的下一个重大里程碑是第一台头戴式AR设备的发明。1968年,哈佛副教授Ivan Sutherland跟他的学生Bob Sproull合作发明了Sutherland称之为“终极显示器”的AR设备。使用这个设备的用户可以通过一个双目镜看到一个简单三维房间模型,用户还可以使用视觉和头部运动跟踪改变视角。尽管用户交互界面是头戴的,然而系统主体部分却又大又重,不能戴在用户头上,只能悬挂在用户头顶的天花板上。这套系统也因此被命名为“达摩克利斯之剑”。

尽管这些早期的发明属于AR的范畴,但实际上,直到1990年,波音公司研究员Tom Caudell才创造了“AR”这个术语。Caudell和他的同事设计了一个辅助飞机布线系统,用于代替笨重的示例图版。这个头戴设备将布线图或者装配指南投射到特殊的可再用方板上。这些AR投影可以通过计算机快速轻松地更改,机械师再也不需要手工重新改造或者制作示例图版。

大约在1998年,AR第一次出现在大众平台上。当时有电视台在橄榄球赛电视转播上使用AR技术将得分线叠加到屏幕中的球场上。此后,AR技术开始被用于天气预报——天气预报制作者将计算机图像叠加到现实图像和地图上面。从那时起,AR真正地开始了其爆炸式的发展。

2000年,Bruce H. Thomas 在澳大利亚南澳大学可穿戴计算机实验室开发了第一款手机室外AR游戏——ARQuake。2008年左右,AR开始被用于地图等手机应用上。2013年,谷歌发布了谷歌眼镜,2015年,微软发布HoloLens,这是一款能将计算机生成图像(全息图)叠加到用户周围世界中的头戴式AR设备,也正是随着这两款产品的出现,更多的人开始了解AR。

AR硬件发展的驱动力源于计算机处理器、显示技术、传感器、移动网络速率、电池续航等多个领域的技术进步。

目前能够确定的AR硬件类型有以下几种:

手持设备(Handheld Devices)

固定式AR系统(Stationary AR Systems)

空间增强现实(SAR)系统(Spatial Augmented Reality Systems)

头戴式显示器(Head-mounted Displays ,即HMD)

智能眼镜(Smart Glasses)

智能透镜(Smart Lenses)

手持设备

智能手机正是手持设备的代表。我们正经历着智能手机、平板电脑等手持设备的大爆炸时代,这将会促进AR的普及。这些设备正在变得越来越好——显示器分辨率越来越高,处理器越来越强,相机成像质量越来越好,传感器越来越多,提供着加速计、GPS、罗盘等等功能……这些成为了天然的AR平台。尽管手持设备是消费者接触AR应用最为方便的形式,但由于大部分手持设备不具备可穿戴功能,因此用户无法获得双手解放的AR体验。

固定式AR系统

俄罗斯一家Topshop内的固定式AR衣橱

固定式AR系统适用于固定场所中需要更大显示屏或更高分辨率的场景。与移动AR设备不同的是,这些极少移动的系统可以搭载更加先进的相机系统,因此能够更加精确地识别人物和场景。此外,显示单元往往能呈现出更加真实的画面,而且受阳光或照明等环境因素影响较小。

空间增强现实(SAR)系统

大众公司的SAR系统

与其它所有系统不同的是,空间增强现实(SAR)系统的虚拟内容直接投影在现实世界中。SAR系统往往固定在自然中。任何物理表面,如墙、桌、泡沫、木块甚至是人体都可以成为可交互的显示屏。随着投影设备尺寸、成本、功耗的降低以及3D投影的不断进步,各种全新的交互及显示形式正在不断涌现。SAR系统最大的优点在于,现实世界的反射在这里更加精确,即虚拟信息能够以实际的比例和大小呈现在眼前。此外在观看人数较多时,内容也能看清,这个案例可以用来实现同步办公。

头戴式显示器(HMD)

佳能的混合现实头戴设备

HMD代表着另一种快速发展的AR硬件类型。HMD由一个头戴装置(如头盔),以及与之搭配的一块或多块(微型)显示屏组成。HMD将现实世界和虚拟物体的画面重叠显示在用户视野中。换而言之,用户不会直接看到现实,看到的是现实的增强视频画面。如果显示屏只覆盖用户的一只眼睛,这样的HMD称为单眼HMD,另一种是两只眼睛都看显示屏的双眼HMD。先进的HMD通常能够搭载具有很高自由度的传感器,用户可以在前后、上下、左右、俯仰、偏转和滚动六个方向自由移动头部。该系统因此能够实现虚拟信息与现实世界的贴合,并根据用户头部移动作做相应的画面调整。

智能眼镜

Vuzix M100智能眼镜

消费电子行业的许多公司认为,智能眼镜将会成为智能手机后下一大全球热卖消费产品。这些AR设备实际上是带有屏幕、相机和话筒的眼镜。根据这一概念,用户的现实世界视角被AR设备截取,增强后的画面重新显示在用户视野中。AR画面透过眼镜镜片,或者通过眼镜镜片反射,从而进入眼球。智能眼镜技术最为突出的例子是谷歌眼镜和Vuzix M100。不过,目前开发中的最令人激动的智能眼镜要数Atheer One——该智能眼镜配有3D景深传感器,用户可以实际控制眼前显示的虚拟内容。

智能透镜

华盛顿大学开发的透镜中含有金属电路结构

智能眼镜绝不是故事的结局。越来越多的研究投入到能显示AR画面的智能透镜上;微软、谷歌等公司也正忙于宣布自己的智能透镜项目。

智能透镜的理念是在传统透镜中集成控制电路、通信电路、微型天线、LED及其它光电组件,从而形成一套功能系统。未来或许可以用成千上万颗LED直接在眼前形成画面,从而让透镜变成显示屏。然而,还必须克服一系列难题,比如说如何给透镜供电,如何保证人眼不受伤害等等。

考古:在古代遗迹上显示遗迹原本的样子。

艺术:跟踪眼球移动并将这些移动显示在屏幕上,帮助残疾人进行艺术创作。

商业:显示产品的多种定制选项或者补充信息。

教育:将文本、图像、视频和音频叠加到学生周围的实时环境中。

时尚:显示不同的妆容和发型用在一个人身上的效果。

游戏:运用真实世界环境让用户在游戏中进行互动,获得不同的体验。

医药:通过虚拟X光将病人的内脏器官投射到他们的皮肤上。

军事:使用AR眼镜向士兵展示战场中出现的人和物体,并附上相关信息,以帮助士兵避开潜在的危险。

导航:将道路和街道的名字跟其他相关信息一起标记到现实地图中,或者在挡风玻璃上显示目的地方向、天气、地形、路况、交通信息,提示潜在危险。

体育:显示橄榄球场的得分线、高尔夫球的飞行路线和冰球移动的轨迹。

电视:在天气预报中显示天气视觉效果和图像。

AR介于VR和真实世界之间,VR创造逼真的虚拟世界,AR则将图形、声音、触感和气味添加到真实的世界中。

在介绍AR的工作原理之前,我们先通过一个例子,让大家有一个简单的认识。

在2009年2月的TED大会上,帕蒂梅斯(Pattie Maes)和普拉纳夫米斯特莱(Pranav Mistry)展示了他们研发的AR系统。该系统属于麻省理工学院媒体实验室流体界面小组的研究成果之,他们称之为SixthSense(第六感)。它依靠众多AR系统中常见的一些基本元件来工作:摄像头、小型投影仪、智能手机和镜子。

这些元件通过一根类似绳索的仪器串连起来,然后戴在佩戴者的脖子上。用户还会在手指上戴上四个不同颜色的特殊指套,这些指套可以用来操纵投影仪投射的图像。

SixthSense设备利用简单的、现成的元件来组成AR系统,它的投影仪可以将任何平面变成一个互动的显示屏。SixthSense设备利用摄像头和镜子来捕捉周围的环境,然后将这种图片传给手机(手机处理这种图片,获得GPS坐标以及从互联网上搜索相关信息),然后将这些信息从投影仪投射到用户面前的任何平面上,不管这种平面是一个手腕,一面墙,还是一个人。由于用户将摄像头佩戴在胸前,因此SixthSense设备能够增强他所看到的一切。例如,如果他在一个杂货店里挑选了一罐汤,SixthSense设备将能够搜索这罐汤的相关信息,例如成分、价格和营养价值甚或用户评论,然后将它们投射到平面上。

利用手指上的指套,用户可以在投射的信息上执行各种操作,这些操作将会被摄像头捕捉到,然后通过手机来处理。如果他希望了解这罐汤的更多信息,例如与之竞争的同类产品,那么他可以用手指与投射画面进行互动,从而获取更多的信息。SixthSense设备还能够识别一些复杂的手势,例如你在手腕上画一个圆圈,SixthSense设备就能够投射一款手表来显示当前的时间。

AR的系统结构

一个典型的AR系统结构

一个典型的AR系统结构由虚拟场景生成单元、透射式头盔显示器、头部跟踪设备和交互设备构成。其中虚拟场景生成单元负责虚拟场景的建模、管理、绘制和其它外设的管理;透射式头盔显示器负责显示虚拟和现实融合后的信号;头部跟踪设备跟踪用户视线变化;交互设备用于实现感官信号及环境控制操作信号的输入输出。

首先透射式头盔显示器采集真实场景的视频或者图像,传入后台的处理单元对其进行分析和重构,并结合头部跟踪设备的数据来分析虚拟场景和真实场景的相对位置,实现坐标系的对齐并进行虚拟场景的融合计算;交互设备采集外部控制信号,实现对虚实结合场景的交互操作。系统融合后的信息会实时地显示在头盔显示器中,展现在人的视野中。

目前AR技术的技术难点在于:精确场景的理解、重构和高清晰度、大视场的显示技术。

在增强现实系统中,首先要解决“是什么”的问题,也就是要理解、知道场景中存在什么样的对象和目标。第二要解决“在哪里”的问题,也就是要对场景结构进行分析,实现跟踪定位和场景重构。

物体的检测和识别技术

物体检测和识别

物体检测和识别的目的是发现并找到场景中的目标,这是场景理解中的关键一环。广义的物体检测和识别技术是基于图像的基本信息(各类型特征)和先验知识模型(物体信息表示),通过相关的算法实现对场景内容分析的过程。在增强现实领域,常见的检测和识别任务有,人脸检测、行人检测、车辆检测、手势识别、生物识别、情感识别、自然场景识别等。

目前,通用的物体检测和识别技术,根据不同的思路可以分为两种:一种是从分类和检测的角度出发,通过机器学习算法训练得到某一类对象的一般性特征,从而生成数据模型。这种方法检测或者识别出的目标不是某一个具体的个体,而是一类对象,如汽车、人脸、植物等。这种识别由于是语义上的检测和识别,所以并不存在精确的几何关系,也更适用于强调增强辅助信息,不强调位置的应用场景中。如检测人脸后显示年龄、性别等。另外一种识别是从图像匹配的角度出发,数据库中保存了图像的特征以及对应的标注信息,在实际使用过程中,通过图像匹配的方法找到最相关的图像,从而定位环境中的目标,进一步得到识别图像和目标图像的精确位置,这种识别适用于需要对环境进行精确跟踪的应用场景。

就现阶段而言,识别检测技术的难点之一是技术的碎片化。这一方面是由于每一类对象都会有其独有的特征,而不同特征的提取和处理都需要实现一一对应,这对识别检测是一个巨大的挑战。另一方面,图像本身还受到噪声、尺度、旋转、光照、姿态等因素的影响。近几年来,随着深度学习技术的不断成熟,检测和识别方法也越来越统一,而性能也在不断提高中。

跟踪定位技术

跟踪技术的方法可以分为基于硬件和基于视觉两大类。基于硬件设备的三维跟踪定位方法在实现跟踪定位的过程中使用了一些特殊的测量仪器或设备。常用的设备包括机械式跟踪器、电磁式跟踪器、超声波跟踪器、惯性跟踪器以及光学跟踪等。光学跟踪和惯性跟踪是比较常用的两种硬件跟踪方式,HTC Vive就是采用了光学跟踪和惯性跟踪两种硬件来定位头部的位置。使用硬件设备构成的跟踪系统大多是开环系统,跟踪精确取决于硬件设备自身的性能,其算法的扩展性要差一些,且成本相对较高。

HTC Vive 采用光学和惯性跟踪设备

视觉跟踪方法具备更强的扩展性,其系统多为闭环系统,更依赖于优化算法来解决跟踪精度问题。相比于上述基于硬件设备的跟踪方法,计算机视觉跟踪方法提供了一种非接触式的、精确的、低成本的解决方法,但是基于视觉的方法受限于图像本身,噪声、尺度、旋转、光照、姿态变化等因素都会对跟踪精度造成较大的影响,因此更好地处理这些影响因素,研发鲁棒性强的算法就成为下一步AR技术的研究重点。

根据数据的生成方式,视觉跟踪技术的算法可以分为两种,一种是基于模板匹配的方式,预先对需要跟踪的target进行训练,在跟踪阶段通过不断的跟预存训练数据进行比对解算当前的位姿。这类方法的好处是速度较快、数据量小、系统简单,适用于一些特定的场景,但不适用于大范围的场景。

另外一种是SLAM方法,也就是即时定位和地图构建技术。这类技术不需要预存场景信息,而是在运行阶段完成对于场景的构建以及跟踪。其优点是不需要预存场景,可以跟踪较大范围,适用面广,在跟踪的同时也可以完成对于场景结构的重建。但目前这类技术计算速度慢、数据量大、算法复杂度高,对于系统的要求也较高。Hololens和Magic Leap的宣传视频中都展现了这方面技术,而亮风台对相应的技术也在研发当中。

SLAM跟踪技术

为了弥补不同跟踪技术的缺点,许多研究者采用硬件和视觉混合跟踪的方法来取长补短,以满足增强现实系统高精度跟踪定位的要求。

透射式头盔显示器

透射式头盔显示器 Hololens

目前大多数的AR系统采用透视式头盔显示器实现虚拟环境与真实环境的融合。根据真实环境的表现形式划分,主要有视频透视式头盔显示器和光学透视式头盔显示器两种形式。

视频透视式头盔显示器通过安装在头盔上的微型摄像头获取外部真实环境的图像,也就是通过摄像头来采集真实场景的图像进行传递。计算机通过场景理解和分析将所要添加的信息和图像信号叠加在摄像机的视频信号上,将计算机生成的虚拟场景与真实场景进行融合,最后通过类似于浸没式头盔显示器的显示系统呈现给用户。

虽然视频透射式头盔在显示上不受强光的干扰,具有比较大的视场,但由于真实环境的数据来自于摄像头,因此会造成显示分辨率较低的不利因素。另一方面,一旦摄像机与用户视点不能保持完全重合,用户看到的视频景象与真实景象将会存在偏差,因此会造成在某些领域(特别是工业、军事等领域)出现一些安全隐患。

光学原理的透视式头盔显示器的基本原理则是通过安装在眼前的一对半反半透镜融合呈现出真实场景和虚拟场景。与视频透射式不同的是,光学透视式的“实”来自于真实的光源,经过透视光学系统直接进入眼睛,计算机生成的“虚”则经过光学系统放大后反射进入眼睛,最后两部分信息汇聚到视网膜上从而形成虚实融合的成像效果。

光学透视式头盔相对来说结构简单,分辨率更高,因其能够直接看到外部,真实感和安全性也更强。其缺点是,在室外强光条件下显示效果会受影响。目前Hololens以及亮风台的HiAR Glasses都采用了光学透射式的成像方案。

不难看出,两种方案各有优缺点,如何选择最优方案,目前来看,还应基于实际应用场景来进行判断。

由于光学透射式头盔跟实际场景结合更紧密,真实感更强,大多数厂家会选择这种方案。对于透射式头盔显示器来说,单纯的强调厚薄或者视场大小并没有任何实际意义。这是由于厚度和视场是矛盾的,要做得较薄,方便用户使用佩戴,视场就必然变小;想要拥有大视场,则其厚度就必然增大,设备就目前来说也会显得比较笨重,不易佩戴。因此在目前技术依旧存在障碍的情况下,大家都会采取一些折中的方案。

数字光场显示

Magic leap 光场显示

随着Magic Leap的宣传视频,数字光场这个概念也变得广为人知。这种不采用屏幕来做载体的显示方式,通过记录并复现光场来完成虚拟物体的显示。通过呈现不同深度的图像,使用户在观察近景或远景时,可以实现主动的对焦,这也是光场显示的一大优点。

同样,光场显示也有不同的显示方案,一种方案是采用多层的显示器,如光场立体镜。如Magic Leap采用的是光导纤维投影仪。这套方案的优势是可以做到很大的视场角,显示更加符合人的真实感受。但这一方案同时也具有比较大的挑战性,光场的显示需要比较大的计算量,并且需要有相应的手段记录或者生成想要叠加的虚拟对象相应位置的光源信息,同时还要精细地控制投影的内容和位置,目前这些技术还都处于研究阶段。

尽管存在比较多的挑战,光场显示技术仍旧是非常值得期待的一种成像方式。

从目前来看,绝大多数巨头和创业公司更愿意选择在VR领域开疆拓土,但这并不意味着AR无人问津。

种种迹象显示,苹果可能和微软一样瞄准了AR领域,并非时下最热的VR。

苹果已经在AR领域进行过一些并购交易。2015年5月,苹果收购了一家名为Metaio的德国AR公司。该公司主要开发基于智能手机的AR应用软件,比如其曾经开发一款让家具视觉化呈现的工具。该公司被收购之后,实体被注销,人员融入了苹果的开发团队。

2014年年底,苹果收购了一家从事脸部视觉识别的公司——FaceShift,该公司的技术能够利用摄像头对用户脸部图像进行实时捕捉,甚至可以生成虚拟的头像。

据悉,电影《星球大战:原力觉醒》的特效团队曾经使用了上述公司的技术,让外星人的脸部形象更加栩栩如生。

此外,苹果还曾经收购了以色列的硬件公司PrimeSense,该公司主要为微软的Xbox游戏机制造Kinect动感捕捉摄像头。

该公司具备了先进的手势动作识别技术。在AR领域,用户一般不会使用手持控制器,因此识别手部动作十分重要,这一技术也能够用于AR头盔中。

除了各种并购之外,苹果也储备了一些和AR有关的技术专利。这些专利并不意味着苹果一定会开发某种技术或者硬件,但是可能披露了苹果未来产品开发的某些思路。

2015年2月,苹果获得一个技术专利,主要用于让智能手机连接AR和VR头盔。专利描述文字和谷歌(微博)、微软、三星电子和Facebook近些年推出过的产品十分相似。

不过迄今为止,苹果从未对外宣布过开发AR硬件、软件等产品的计划。苹果向来并不喜欢做新技术的第一批尝鲜者,而是善于在市面已有的产品门类中拿出用户体验十分优秀的产品,依靠苹果的品牌力大规模占领市场。因此在AR领域,苹果也会选择一个相对成熟的时机再进入市场。

微软应该算是布局AR比较超前的巨头公司,其在2015年就推出了AR头盔HoloLens,开发者版已经开启预订,售价为3000美元。

我们之所以能够看到物体,是因为光线被这些物体反弹,最后射入我们的眼中。而我们的大脑需要对这些光进行复杂运算,最后重现你眼睛所看到物体的图像。HoloLens实际上就是欺骗大脑,将光线以全息图的方式发射到你眼睛中,就好像物体真的存在于现实世界中一样。

就像下面这幅图,HoloLens可以将屏幕投射到墙上。当用户四处走动时,屏幕依然会留在原地,就好像那是一面真实存在的镜子。HoloLens可在正确角度向你的眼中发射光线,让你觉得屏幕真的出现在墙上。

HoloLens本身就是一台独立电脑,拥有自己的CPU和GPU,以及微软所谓的全息处理单元,负责支持创造全息图必须的全部必要计算。

在消费者方面,HoloLens拥有巨大潜力,你可能再无需购买60英寸电视,HoloLens允许用户将电视屏幕发射到墙上,屏幕大小可随意调节。如果未来版的HoloLens足够紧凑,你可以想象到有人边开车边接受导航,但司机的实现不再局限于屏幕上,而是可看到前方道路的全息图。当然,游戏可能是HoloLens的重要卖点。

在企业方面,HoloLens最明显的应用就是实现3D模型或设计的可视化。HoloLens也可被用于视频会议等场合。此外,它的另一个用途可能是支持在线零售店,允许HoloLens用户看到其产品全息图。在你购买家具前,你就可以看到家具被摆放在室内的虚拟图。

由于HoloLens运行Windows 10操作系统,通用应用将可在其上顺利运行。这些应用将被投射到用户面前,可被便捷操作。对于微软来说,吸引开发者非常重要,因为这款设备最吸引人的应用可能还未出现。尽管HoloLens的硬件设施令人印象深刻,但其依然需要好的应用为消费者和企业提供最好的服务。

微软手中可能正握着一款革命性产品。在错失了移动大潮之后,微软将复兴的希望押在HoloLens身上,尽管在HoloLens成为大众设备前,它可能需要数次迭代,但对于微软来说,这将是改变游戏规则的良机。

谷歌当前在VR领域比较活跃,如推出硬件产品 Cardboard头盔,YouTube上线360度全景视频功能,还提供Tilt Brush、Jump和Assembler等VR小应用,方便帮助开发者创新新的VR体验,但这并不意味着谷歌放弃了AR市场。

谷歌和联想合作,推出Project Tango项目。该项目旨在赋予智能手机3D绘图和创造AR体验的能力。Tango智能手机将于今年年终发货,相当于是一个完整功能的AR设备。

除了自身开发AR项目,谷歌还投资了AR创业公司Magic Leap。Magic Leap专注于AR技术的研发,其最终产品很可能是一款头盔,可将电脑生成的图像投射到人眼上,最终在现实图像上叠加一个虚拟图像。有关Magic Leap的情况,将在下文进行详细说明。

Magic Leap算是知名度很高的AR创业公司。今年2月,Magic Leap在新一轮融资中获得7.935亿美元的投资,阿里、谷歌都参与了本轮融资。据估测, Magic Leap的估值至少达到45亿美元,这比两年前Facebook收购Oculus的价格高出了两倍。

Magic Leap研发的技术依然处于半透明状态,没有任何产品出现,我们目前只知道它主要研发方向就是将三维图像投射到人的视野中。

Magic Leap CEO鲁尼 阿伯维兹曾公开表达过自己公司的定位:“你可以将我们看作是科技生物学(Techno-biology),我们认为它是计算机的未来。”

具体来说,Magic Leap制作图像的方法与人眼的工作方式相同。Magic Leap利用弯曲的光场制作图像,而不像其他平台那样利用立体图像欺骗眼球。利用其他3D图像投影方式,如果用户闭上一只眼睛,3D图像就会消失。在现实生活中,用户即使闭上一只眼睛,依然能够看到3D图像。Magic Leap便采用这种更为实用的图像制作方式。

尽管过去一年里媒体开始大肆报道AR技术,我们目前了解到的大部分AR解决方案仍处于开发之中。只有少数硬件解决方案得到了大规模生产并能够买到。

2011年,全球AR营收仅为1.81亿美元,而且当时AR往往被人们视作一种营销噱头:一种还在摸索实用应用的技术。很少有人认识到AR的潜力,开发相关应用大多也是用来快速打响名声,或者这些应用的价值仅限于添加视频效果这样的博眼球之举而已。

然而最新预测指出,到2017年,AR市场将增长至52亿美元,年增长率竟逼近100%。随着大量资金注入AR项目及AR创业公司,尤其是随着谷歌(微博)、佳能、高通、微软等大公司的入场,我们已经看到第一批消费级AR产品的涌现。随着实际商业利益的出现, AR将成为消费、医疗、移动、汽车以及制造市场中的“下一件大事”。

市场调研公司Digi-Capital给出的一组数据很值得研究:到2020年,AR的市场规模将达到1200亿美元,远高于VR的300亿美元。

VR对于游戏与3D电影来说是一项非常棒的技术,甚至可以说这项技术可谓是专门为此而设计的。但这项技术的体验主要是在客厅、办公室或者座位上展开的,因为如果你戴着一个完全封闭的头戴式显示器走在路上,随时都可能撞到路边的东西。

虽然AR技术应用在游戏也非常有趣,但在需要真正沉浸式体验的时候,其所带来的乐趣或许不如VR技术那么多,这就像是移动游戏与主机游戏之间的差距。但是,AR技术在游戏玩家眼中的这个缺点,恰恰是让它可以同智能手机一样,在数以亿计用户的现实生活中发挥重要作用的优势。人们可以戴着它四处活动,做任何事情。

AR的软件与服务拥有可与如今的移动市场相媲美的经济效应,它们都可以利用现有的其他产品的市场,并不断扩张它们。AR庞大的用户基础将会成为电视电影、广告以及Facebook的用户应用程序甚至《部落冲突》等游戏的主要收入来源。

换句话说,AR技术有可能触及到更多的人,因为它是对人们日常生活的无缝补充,而不是像VR那样在现实世界之外营造出一个完全虚拟的世界。

《增强现实:指向增强现实的一种新技术》一书的作者格里格·基佩尔(Greg Kipper)在书中写到:“增强现实将具备更多的实际应用价值,因为在现实中,与真实世界中的事物互动的人更多一些。”

在增强现实技术的帮助下,人们通过专用头盔看见的三维全息图像可以为真实世界提供一种有益的补充。当你走过一个杂货店的走道,你也许会在眼前的虚拟屏幕上看到制作意大利饭所需的食材和配料清单。又或者,当你在阅读一本有关天文学的书籍时,你周围可能会出现一幅太阳系的图像。

但是戴上虚拟现实头盔之后,你与周遭世界的联系就被人为隔断了。你被投影到一个不同的世界中,就像恐龙冲过一片丛林,或者像站在一幢100层的摩天大楼的楼顶上俯瞰着脚下的大街一样。这跟主题乐园的游历过程有些相似,就连虚拟现实头盔戴久了会让你感到恶心或者头晕也跟你在主题乐园中呆久了的感觉很相似。

Meta是硅谷的一家小公司,员工人数大约为100人。按计划它将在今年夏天交付第二代AR头盔,它的头盔是作为开发者工具套装的一部分出售的,整个套装售价949美元,主要用来帮助开发商为新头盔设计出更多的三维、互动应用。

Meta CEO梅隆·格里贝茨预计,有朝一日,人们再也不用一边在笨拙的键盘上敲敲打打,一边紧盯着显示屏的屏幕,人们可以在漂浮在眼前的全息图像之间随意切换和浏览,只需用手碰一碰就可以完成各种操作。当然还有虚拟键盘,人们可以利用它输入数据。

人们可以进入他们的全息影像屏幕,提取出人的解剖图,然后剔除骨骼进行研究。人们也可以通过透视去检查自己打算购买的鞋子的内部做工。到那个时候,打电话将会变成一种很奇怪的行为,因为所有人都可以在全息影像中进行对话。

格里贝茨说:“VR很酷,但它只是通向增强现实的一块垫脚石。我们将开发出比Mac电脑好用一百倍且强大一百倍的产品。”

对于AR而言,解决注册任务是最核心的问题。注册对精度的要求极为严格:由于AR应以实时、六个自由度的形式将虚拟信息和现实信息相融合,即便是轻微的注册失准都会造成组合视图难以容忍的失真。因此,移动AR存在两大难点:注册必须极为精准,注册对计算能力和内存的利用必须极为高效。

这个问题是AR面向大众部署所面临的终极挑战。我们断言,目前大部分已知的注册任务解决方案其实并不适用于智能手机——尽管看上去能用。因此,所有的AR研究人员都应该为智能手机AR的大空间应用问题开发专门的解决方案。

智能手机是AR大众市场最具前景的平台。智能手机生态系统为面向大众部署AR的纯软件解决方案提供了一切要素。然而不应忽视的是,尽管技术和逻辑取得了种种进步,但是AR应用在智能手机上的大规模部署仍然存在着下列重大障碍:

1、相机质量与成像处理。智能手机通常配备的相机传感器在弱光条件下表现糟糕:图像模糊,开始出现明显色差。相机传感器硬件通常禁止低层级访问。API只提供了相机传感器的高层级访问,无法控制曝光、光圈及焦距。小型CCD传感器导致相机采样噪点增加,进而严重影响后续CV算法的发挥。图像获取过程中的质量损失很难通过后期处理步骤补偿。

2、电量消耗。电池电量近年来并没有显著提升。相机传感器在以高帧率持续运行时耗电量很大,其主要原因是目前手机的设计用途仍然是拍照,而不是摄影。另外,传感器和网络接口也是耗电大户。运行功能强大的AR应用会让电池迅速耗干。因此,AR应用必须只能设计成供短时间使用,而不是一种“常开”功能。

3、网络依赖性。远程访问大量数据受到几个因素的影响。首先,网络延迟会导致令人不爽的延迟,拖累AR应用的瞬时表现。其次,访问远程数据仅在开了流量套餐时才有可能做到,而流量套餐可能过于昂贵或者无法开通。最后,某些地区的网络覆盖可能不满足条件。于是完全独立的AR应用成为了唯一的可行选择,这就意味着需要在设备上占用大量的存储空间。

4、可视化与交互的可能性。智能手机的外形因素在购买决策中发挥着重要作用。实际上,可接受最大设备的尺寸严格制约了显示屏的大小。交互技术同样存在着类似的限制。多点触控界面或许是最为先进的交互机制,但它在某些特定任务——如像素级的选取上表现糟糕。

理论上讲,针对AR改进未来智能手机需从哪些方面入手已是众所周知。在实践中,AR应用的开发者却要看硬件厂商和服务供应商的脸色,后者做出硬件发展决策的依据是市场预测,而其中可能不含对AR的需求。不过,硬件总体是朝着正确的方向发展的,尤其在移动游戏或移动导航系统的驱动下——而这两者与AR在技术需求方面存在许多共通之处。此外,研究人员意识到目前相机控制方面存在限制,更好的相机API也会因此诞生,比如Frankencamera项目。

尽管平板电脑作为一种流行移动平台也在不断壮大,但它属于放大版的智能手机平台。由于尺寸放大,可视化与交互的限制有了些许放松,但这些设备的尺寸和重量同时也制约着它们在AR领域的应用,原因是拿起来更加累人(比如说,把设备举起来较长时间可能需要两只手,反过来制约了交互的可能性)。除此之外,目前的平板电脑存在着与智能手机相同的问题。对于不同的AR应用而言,智能手机和平板电脑可能前者更适合,也可能后者更适合。

智能手机的一大优势在于,定位不必单单依赖于相机传感器,也可以利用其它任意可用的传感器,如GPS,指南针,加速度计和陀螺仪。尽管其它传感器的使用在核心CV社区中往往被视为“作弊”,但这些传感器能够对开发实验室外快速、健壮的定位功能做出重大贡献。即便在结合了多种传感器的帮助下,基于CV的定位仍然非常困难,一系列原因列举如下:

纹理结构。大多数方法依赖于兴趣点外形上的自然特征,要求环境中各区域纹理足够清晰。兴趣点的主要问题在于,纹理的呈现形式至关重要。尤其在室内场景中,常常会有白墙出现,使得基于自然特征的定位方法很难发挥作用。

光照和天气条件。尽管自然特征描述器通常被设计为不受光照影响,但这一假设只有在描述实际物理特征的观测研究中成立。不幸的是,室外环境中大量以自然画面呈现的特征与实际物理特征并不相关。场景中物体投射的阴影会造成斑点、边角、线条的出现,还会随着光照或天气条件变化而动态移动。因此,存在着大量的会对定位质量产生严重影响的异常因素和不匹配因素,这与匹配算法的选择并无关系。

数据库规模大、易变化。对于室外环境而言,在定位之前必须采集大量数据并处理生成初始模型。利用昂贵设备的实时方法能够处理这一问题:然而,无法访问的区域仍然会造成最终模型中的孔洞(即未能构建地图的区域)。此外,得到的模型仅代表某个时间点的静态快照。环境中的任何变动,如商店橱窗的翻新,咖啡店遮阳伞的开闭,停车场汽车的去留,都会让数据采集生成的模型瞬间过时。另一个重要方面是通信通道(可能是移动网络)中最终模型的分发方式。由于这些模型通常体积颇大,整体还是拆分传输都会带来技术难题。

失准及丢失的传感信息。在室外定位中,GPS和指南针提供了关于设备大致位置和方向的极具价值的绝对信息。不幸的是,传感器并不健壮:在不同的地点,传感信息的准确度可能会有天壤之别。尤其是在狭窄的城市峡谷里,GPS信息可能会偏差100米,甚至会不可用。类似的是,磁干扰会严重影响电子指南针的读数,而磁干扰在人造环境中是不可避免的。

精准定位是AR亟待解决的最为重要的任务。但正如上面所述,仍然存在着一些重大挑战,仍需针对这些挑战寻找真正切实有效的解决方案。近来平板电脑AR的SLAM实施证明,如果上述条件(即纹理结构清晰)达到,就能充分实现小规模环境的定位注3。然而,大规模环境的定位仅存在于概念证明研究中。相关问题似乎难以攻克,因此只能等待技术的缓慢进步了。

除了实现算法研究成果的精度和可扩展性这样的学术目标外,还存在着一系列严重影响AR体验实用性的实际问题。这些因素仅与AR的实际应用相关,因此在科学文献中讨论较少。这或许会造成“这些问题不难解决或者与AR的成功不相关”的错误认识。下面列举了一些与智能手机有关、同时也与AR一般用途有关的问题:

实际的硬件发展与“AR心愿清单”的矛盾:目前智能手机中相机及其它传感器的质量不足以满足AR的高要求。硬件进步——如立体相机,CPU/GPU的统一随机寻址,WiFi三角定位——能够让AR应用的开发者极大受益。不幸的是,在AR尚未气候成熟时,期待手机会针对AR优化纯属幻想。硬件配置的任何变动会增加数百万美元的开发成本,倘若之后无法满足市场预期,搭上的钱还会更多。目前,消费者购买手机主要是为了语音通讯,游戏和网页浏览。这些市场将会驱动近期到中期的手机功能革新。我们必须说服设备厂家AR是手机应用的新兴市场,这样才能为AR争取到更先进的硬件。幸运的是,如今AR的度已成规模,因此不久的将来,手机针对AR的优化或将成为现实。

动态场景与AR真实感的矛盾。目前的AR应用假设场景中的一切事物都是静态的。然而,现实恰好与之相反。尤其在室外场景中,几乎所有物体都在变化:行人,光照和天气条件,甚至是建筑物每隔几年也会刷上新的颜色。定位会因此受到严重影响。在动态场景中,大多数算法的基本假设从一开始就是错误的。比如说你正在对一个建筑立面进行增强,行人路过挡住了部分视野。由于算法缺少阻挡推理,就算增强内容的视觉效果再好,未来硬件平台的性能再强大,也会出现碍眼的错误。动态物体与虚拟内容之间交互的缺失绝对会损害AR应用的真实感。因此,目前CV研究成果中物体动态检测与跟踪技术的加入是未来实现高质量AR的关键。

内容创作与注册的矛盾:AR之所以让人兴奋,很大程度上源于终端用户参与内容创作的发展前景。个人内容创作是促使用户积极参与而非被动观察的关键所在。然而,目前仍然没有实现这一概念的基本机制。尽管手机的交互方法得到了极大改进,但在没有精准全局环境模型的条件下,如何使用2D界面方便、精准地注册6自由度内容,这个问题仍未得到解答。就拿增强建筑物里面的一扇窗户举例,目前的方法甚至都无法搞定简单的标记任务。尚没有在开放空间内输入任意3D位置的机制,更别说明确指出方向了。目前决定标签的做法通常利用的是用户(不精准的)GPS位置,而不是兴趣物体本身。对于终端用户创作真实、理想的内容而言,在用户附近对任意位置进行精准注册一定要简单而健壮——然而,这又是一个超出CV基本范畴的研究难题。

近些年,AR引起了市场营销人员的注意,因为它可能改变消费者的购物体验,例如寻找新产品以及决定购买哪个产品。AR技术可以通过HoloLens 或谷歌(微博)眼镜或通过智能手机上的摄像头来将虚拟的元素(例如信息和图片)叠加在真实的物理环境之上。

但是,要发挥AR的潜力,公司应该克制草率开发AR应用程序的冲动,而把注意力放到深入理解消费者与AR技术互动的方式上来。设计和执行有价值的AR应用程序必须遵守以下几点:

·深入理解消费者如何使用AR技术;

·加强电脑专家、设计师和市场营销人员之间的合作;

·在消费者现有购物体验中整合AR应用程序。

首先,任何公司必须理解AR技术与其他数字技术的区别。虽然它们在某些方面很相似(例如,它们的应用程序都可以在智能手机上使用,内容由文字或图片组成以及应用程序通常具有很强的互动性),但是AR技术也有自己内在的独特性:它能够将虚拟内容叠加在真实的物理环境中,并让这两者实现实时互动。

曾有一项实验来调查AR如何影响消费者的反应。这个实验总共有60个受试者参加,在这个实验中,受试者需要寻找他们喜爱的太阳镜或家具,他们要么通过(宜家家居或雷朋眼镜)AR应用程序来查找,要么通过那些可以搜索产品但无AR功能的应用程序来查找。实验结果发现,当受试者发现现实环境被实时增强时(例如,看到太阳镜模拟戴在他们脸上的样子,或看到一把椅子摆在虚拟办公室中的情景),他们就会产生一种身临其境的感觉。这种感觉比只看到网络上的太阳镜照片或家居照片要强烈得多。

这种增强现实体验会让消费者对AR应用程序产生好感,并愿意再次使用这种应用程序以及与别人谈论这种应用程序。但是,这种好感似乎并不能延伸到产品或品牌上。

但是,另一项研究表明这种情况是可以改变的,只要巧妙地将AR应用程序整合到消费者的实际购物体验中,实验使用的应用程序可以让消费者涂抹虚拟口红或画虚拟眼影。

在店里使用这种AR技术可以帮助消费者决定购买什么产品。大多数消费者觉得它很好玩,可以让他们尝试实际化妆难以达到的妆容效果。更为重要的是,当AR应用程序整合进类似的虚拟零售店环境的时候,消费者不仅对这种AR技术产生了好感,而且对于产品也产生了好感。现在,他们更可能购买这些产品,并将AR应用程序看做是购物的便利工具,而不仅仅是用来娱乐的工具。

另一项研究表明,当受试者频繁在其手机上使用AR化妆应用程序的时候,他们也会对AR技术和产品同时产生好感。他们认为,AR应用程序不仅好玩,而且很方便用来购买化妆品。这种好感往往会促使他们购买他们试用过的化妆品。

总的说来,如果AR体验是一次性的,那么它可能只会把消费者的注意力引向这种技术本身。但是,如果它能够很好地整合到消费者的购物环境或购物过程中,那么它就能够积极地影响消费者的购买行为。

值得指出的是,由于在实验中售货员邀请了消费者来使用AR设备,并教了他们如何使用它,因此现在我们尚不清楚如果没有售货员的帮助消费者是否就会得到不一样的体验。

市场营销人员应该记住,AR并没有创造全新的虚拟现实;它只是在现实情境中添加了一些虚拟的元素。当这些虚拟的元素与实际环境完全契合和互动的时候,AR的神奇效果就出现了。与虚拟现实(例如Oculus Rift)让你完全沉浸在不一样的世界中不同,AR只会在特定情境的现实环境中添加必要的虚拟元素(最新的例子就是HoloLens的全息传送功能)。这就是人们喜爱阅后即焚照片应用Snapchat新推的AR功能的原因之一。它的AR功能可让用户利用不同视觉效果将普通的视频转变成可以分享的信息。

AR体验的关键在于这种技术是否能够给消费者创造价值。简单地将虚拟的信息叠加在手机屏幕上并不能给它加分,而且这使得它看起来就像一个花哨无用的噱头。扫描某品牌的商标,然后你的智能手机屏幕上就会弹出相关的广告信息。这样体验在一开始可能会让消费者觉得好玩,但很快会让他们感到厌烦。同样的,当你把手机摄像头对准街道上的不同店面或商店里的不同产品时,AR应用程序就会把相关信息和促销活动呈现在你的手机屏幕上。这听起来似乎很有用,但是市场营销人员需要问问自己:消费者真的会高举着平板电脑或智能手机逛街吗?他们真的想通过扫描的方式来购买任何产品吗?

现在,这个问题的答案是否定的。人们只有觉得在早已饱和的数字空间里叠加虚拟信息是值得的,他们才会愿意这样做。因此,多想想他们愿意这样做的情境吧:例如,参加某个文化活动,参观某个城市景点或历史遗址;或深入了解他们真正喜欢的某个奢侈品或品牌。

AR技术商业化的真正使命是整合AR技术提高消费者体验,让他们的购物过程更轻松、更有趣以及更便利。我们并不想生活在一个完全用虚拟环境取代了真实环境的世界中。谷歌眼镜Google Glass失败的真正原因就在于我们不想走在大街上看到一切现实环境都被增强了。(微软的全息眼镜HoloLens则是另一码事,因为它设计的目的是为了用到特殊的场合,例如会议室或工作间)。因此,我们不是要想方设法地给尽可能多的地方提供虚拟内容,而是要弄明白哪些情境下的虚拟叠加信息可以给消费者创造价值。

在这一章中,我们将探索AR这一新兴技术目前在不同领域的运用情况,并预测有可能成为未来主流的最佳实践。我们选取了一定数量的AR创新案例,归纳成四种功能类别;每一种都会在个人或公司使用AR应用时为其带来显著益处。

第一类是情境敏感式信息,涵盖能够根据特定情境轻松获取互联网已有静态数据的各种应用。

Wikitude和Metaio公司的Junaio(魔眼)是AR浏览器两个最有名的例子,它们提供的情境敏感式信息软件能够识别场所或物体,并将数字信息与现实世界的场景连接起来。智能手机都可以运行这一软件,用户可以通过手机摄像头的视角看到周围的数字信息。

这些数字信息可以是附近感兴趣的地方,比如博物馆、商店、餐馆或者前往下一个公交站的步行路线。该软件通过GPS、WiFi和3D建模实现图像识别和用户定位功能。

语言翻译是AR应用中最具发展前景的领域之一。现有的一款应用Word Lens兼容于几乎所有智能手机,能够将文本同步翻译成另一种语言。打开应用后,用户只要将设备对准外国文字即可。设备就会将此信息翻译成用户母语并显示出来。而且翻译后的文本是同样的字体,印在同一面墙上——就跟原始文本一样。

面部检测和AR的结合则是在现实生活特定情境中轻松获取互联网信息的另一个例子。Infinity是一款AR应用,它可以分析一张面孔,将其与社交网络(如Facebook)上的头像进行比对匹配,匹配目标在社交网络中发布的信息就会显示在用户视野中。

这项功能在消费应用领域非常实用的技术也会受到执法部门的欢迎(如扫描人群,寻找通缉犯)。但不难理解,这款应用已经引发了许多人对隐私的担忧。

大众公司开发的MARTA系统是汽车领域中在恰当地点提供恰当信息的极具可行性的最佳实践解决方案。

该系统在汽车运转失常时派上用场,帮助用户进行汽车维修及维护。它能通过物体识别技术识别出汽车零部件,实时详细地将所有必需的维修、维护步骤描述并图示出来,并配有需要用到哪些设备的信息。这款应用可以在多种移动设备上运行。目前,该系统为大众服务独家使用,不过可以想象,未来消费者都会用上类似的系统,不太了解汽车机械的人都能修好自己的汽车。

即便是今天,AR应用所能提供的也远不止是随时检索互联网信息这么简单。下面讲述的几个AR用例通过主要由设备传感器收集的数据生成新的信息,实现增强现实。这一系列设备能够增强我们的感知,延伸人类能力,超越目前我们所能取得的成就。

已经问世的Recon Jet是一套用于休闲活动的AR系统。该设备便于运动的平视显示器(HUD)可以与蓝牙、WiFi等第三方传感器连接,提供导航和天气信息,访问社交网络,显示实时的状态信息。例如,跑步者可以看到自己的速度,到终点线的距离,目前的海拔提升高度以及心率。目前已有上述功能的Recon Jet计划未来针对在危险环境中工作或从事体力劳动人群开发可穿戴AR设备,监测他们的生命体征和周围环境。

再举一个平视显示器的例子,某些型号的宝马汽车能够在挡风玻璃上投影行驶速度等传感信息。这种增强感知功能自从2004年以来被汽车公司所采用,宝马正在不断增加新功能,持续改进其HUD系统。

宝马目前的ConnectedDrive HUD系统的增强方式是在外部环境真实物体上叠加虚拟标记。这样导航信息或者驾驶助手系统的信息可以显示在司机前方道路视野的精确位置上。导航指示可以层叠在道路上,其它汽车或安全相关的物体可以根据情况高亮显示或标记出来。宝马夜视系统提供的可视化信息正是HUD应用的绝佳例证。

屡获殊荣的iOnRoad应用是一个类似于宝马HUD的增强驾驶助手系统,只不过面向平民大众市场,也没那么先进。该应用仅使用智能手机相机和一些视觉算法,提供了诸如碰撞预警、出口监测、道路出界预警以及事故后能派上用场的黑匣子录像功能。

Liver Explorer是AR应用在另一个截然不同的领域中的例证。外科医生可以通过Fraunhofer MEVIS公司开发的Liver Explorer应用增强感知。该应用能够为执业医生提供实时的AR向导和辅助。设备通过摄像头捕捉肝脏影像,利用AR技术将手术计划的数据叠加到器官上。

另外,该软件还能实时响应(如根据系统持续追踪的血管运动状态及时更新手术计划)。这些功能超越了MARTA系统对于情境敏感式信息的定义。如果该应用能得到积极评价的话,未来很可能会改造推广到更多的手术领域中。

在危险情况下,随时掌握关键信息尤为重要。正因为如此,军方成为了AR应用最大的投资者之一。Q-Warrior Helmet是一款军事应用。该AR项目希望能为士兵们提供“保持警惕,视野开阔,手搭扳机”的场景意识,以及敌我识别、夜视影像和远程协调小分队的增强功能。该头盔会将每个佩戴者的具体位置信息提供给其他人,军事组织可以通过它在战斗或侦查行动中集结、行军、分享信息与位置。不难想象,未来类似的系统会出现在其他工作环境危险的职业中(如消防员、执法人员)。

上述案例以提供静态数字信息的方式为我们展示了增强现实的应用,然而接下来这一类的AR实践相比之下更进了一步。通过这些所谓的混合现实模拟,用户可以在现实环境中动态地更换或调整虚拟物体。

最新的宜家应用Ikea Catalog就是其中最为突出的一个例子。借助于这个由Metaio公司开发的AR应用,消费者可以使用移动设备把所选的数字版宜家家具“放置”在自己家客厅里,从而更方便地测试家具的尺寸、风格、颜色摆在某个位置是否合适。该应用还允许用户调整每一个部件的尺寸和颜色。

优衣库的试衣魔镜(Magic Mirror)提供了一种更加个人化的AR试衣体验。2012年旧金山的一家优衣库门店安装了这台大型增强试衣镜,它能够识别顾客的身材和所选衣物,因此免去了再试其它颜色的必要。顾客只需换上某件衣物站到镜子前;根据触摸屏的提示选择其它颜色,镜子中就会投射出顾客身着另一种颜色的影像。

佳能推出的MRERL系统能够实现3D电脑渲染模型在现实环境中与现实世界物体无缝融合的设计过程。举例来说,汽车领域可以借助于这套系统设计出新汽车的模型。MREAL系统支持多用户协同工作,同步进行完整规模的产品设计。

这套系统可以用来分析新规划设计中现实部件如何组合的问题。其实现方式是,渲染出包括现有部件和新设计概念的3D模型,再将两者组合起来。

例如,可以将现有的汽车座椅整合到新车虚拟设计的投影中。MREAL系统提供的是混合现实,因此用户可以真的坐到(真实的)座椅上,看到汽车外面的真实环境以及汽车内部的数字虚拟模型——包括全新设计的仪表盘和方向盘。

另一个已投入使用的工业级AR应用来自空中客车公司(Airbus)。为了能够完全依靠数字工具完成新飞机的生产流程,空中客车公司于2009年联合打造了MiRA(混合现实应用)。该应用利用AR扫描部件、检测错误,从而提高了生产线的效率。

以A380客机为例,由平板PC、特制传感套件和软件组成的MiRA应用现在已将组装机身中成千上万个支架的时间由300小时降低至惊人的60小时。更为震撼的是,之后发现,损坏、安装错位或者遗失支架的数量却降低了40%。

我们可以展望一下若干年后AR应用的样子。日本的一位黑客利用现有的3D模型和廉价的动作传感器实现了与日本超人气虚拟歌手初音未来的AR“约会”。在演示视频中,初音陪着他漫步公园,初音能够识别现实世界的物体并做出反应(比如坐在真实的长椅上)。该软件甚至还能与这位虚拟歌手互动(比如摸摸她的头或领带)。尽管这个应用有着明显的煽动性,但它绝非只是噱头。由此我们可以想到,不久之后人们或许会有虚拟伴侣的陪伴,在需要时提供帮助(比如,辅助搞定医疗或工程问题,或者以人形界面的形式处理个人日历、备忘录、通讯录等日常数字事务)。

接入互联网“智能”玩意儿越来越多,获取数字信息的方式越来越多,于是打算利用AR设备及数据来工作的人也越来越多。因此,我们讨论的第四类——虚拟界面,的是提供以数字形式控制现实世界物体的新方式的AR技术。本质上说,这类技术让调整、控制真实物体的混合现实成为可能。

手势是一种随时与数字世界进行交互的高级方式。上文所说的麻省理工学院开发的SixthSense正是这么一种手势界面系统。尽管该系统目前采用的是空间AR技术,它也可以应用于其它各种技术中。借助于该系统,用户可以使用自然手势与信息进行交互。为了捕捉用户的输出意图,该系统的相机采用计算机视觉技术对用户手势进行识别和追踪。

基于AR的界面不局限于计算机设备。还能用来控制汽车,娱乐设备,以及加热系统这样的家居配套设施。仍在开发之中的家庭自动化系统Revolv正是这样的例子。结合Google Glass后,用户可以通过该系统控制家中的所有数字设备(如照明系统和门锁系统)。于是就形成了可以用语音或指尖控制的增强“智能”家居环境。

中国电商1号店的例子告诉我们,虚拟界面也不局限于家中。该公司曾宣布,将成立全球第一个AR连锁超市。

每一家超市将会有一块约1.2平方米的货架,设置在“空白”的公共区域(比如火车车站或地铁车站,公园或大学校园)。裸眼看去只是空荡荡的货架和墙壁,通过AR设备看到的则是完整的一个超市,货架上堆满了数字形式的真实商品。用户只需通过移动设备扫描商品,添加到网络购物车中,即可完成购买。AR购物完成后,用户会在家中收到配送的商品。这个概念类似于韩国地铁站里基于二维码的乐天超市,但得到了AR技术的增强。

上面我们将各种各样的最佳实践分为四类,接下来我们将以物流产业为例,具体说明一下AR技术奖发挥怎样的影响。

虽然AR在物流业中的采用仍处于相对早期阶段,但AR也能提供巨大的益处,例如AR可以让物流供应商随时随地快速获预期信息。这对于配送及优化配载等任务的精确规划和细致运作来说至关重要,同时也能为提供更高质量的客户服务打下坚实基础。

报告将其它行业里我们所认为的最佳实践移植到物流中,由此为AR在物流业中的应用设想了一些用例。在这里拿出来阐述的用意更多的是借此展开讨论、眺望未来,而不是对未来AR在物流业中的发展做出精确预测。

仓库运作

运输优化

最后一公里配送

强化增值服务

仓库运作是AR在物流中最具应用前景的领域。这些运作大约占到物流总成本的20%,而拣货任务占到仓库运作总成本的55%到65%。AR可以由改进拣货流程入手,大幅降低运作成本。AR还有助于培训仓库新员工及临时员工,并为仓库规划提供参考。

视觉拣货(Pick-by-vison):优化拣货流程

在物流中,最切实际的AR解决方案要数能够优化拣货流程的系统。发达国家里,绝大部分仓库仍采用纸质拣货(pick-by-paper)的做法。但任何基于纸质的做法都是低效、易错的。另外,拣货工作往往由临时工完成,这些人通常需要耗费成本进行培训,以确保他们能够高效拣货,不犯错误。

Knapp、SAP和Ubimax共同研发的视觉拣货系统目前处于最后的现场测试阶段,该系统包括头戴式显示器(HMD)之类的移动AR装置,相机,可穿戴PC,以及续航至少为一班次时长的电池模块。其视觉拣货软件功能包括实时物体识别,条形码读取,室内导航,以及与仓库管理系统(Warehouse Management System,简称WMS)的无缝信息整合。视觉拣货带来的最大好处是,仓库工在人工拣货时无需腾出手来即可获得直观的数字信息支持。

借助于这样的一套系统,每位仓库工都能在视野中看到数字拣货清单,还能受益于室内导航功能,看到最佳路径,通过有效路径规划减少移动耗时。该系统的图像识别软件能自动读取条形码以确认仓库工是否到达正确位置,并指引他在货架上快速定位待拣物品。

接着,仓库工可以扫描该物品,将此流程同步登记到仓库管理系统中,实现实时的库存更新。另外,诸如此类的系统能够降低新员工的培训耗时,还能为文化水平有限的仓库工解决可能遇到的语言障碍问题。

这些AR系统的现场测试已经证明,它们为仓库运作的效率提升做出了巨大贡献。举例而言,持续的拣货验证功能可以减少40%的错误。尽管如今的拣货错误率非常低,即使用的还是纸质拣货方法——专家估计错误率约为0.35%——但每一个错误都必须避免,因为每一个错误都会带来高昂的连锁代价。

拣货人员佩戴专为拣货流程开发的可穿戴AR设备

该解决方案提供数字导航,有助于更加高效地找到正确路径和正确物品,同时降低培训时间

主要目的:减少拣货错误,降低查找时间

AR很可能还会对仓库规划流程产生积极作用。如今的仓库不再只是存放和集散的节点;它们逐渐地肩负起越来越多的增值服务,从产品的组装到贴标签、重新打包,乃至产品维修。

这意味着仓库必须重新设计以适应上述这些新服务的需求。可以用AR从全局角度直观地看到任何重新规划的效果,实现在现有的真实仓库环境中放置将来准备改动的可交互数字模型。管理者可以检查所规划的改动尺寸是否合适,并为新的工作流程建立模型。受益于此,未来的仓库实地可以用作仓库运作规划的试验场所。

实现仓库运作流程的混合现实模拟

改动可以叠加在真实环境中,从而做到“现场测试”,并因地适宜,调整所规划的尺寸。

主要目的:支持仓库的重新设计与规划,并降低成本

过去十年中,物流供应商对高新信息技术的运用极大地提高了货物运输的时效性、可靠性和安全性。在完整性检查、国际贸易、司机导航和货物配载等领域,AR有着进一步优化货物运输的潜力。

AR可以实现更加高效的分拣。佩戴AR设备的拣货员快速扫视一下配载,就能知道是否完整。目前,这项工作需要人工统计,或是用手持设备花大量时间逐个扫描条形码。未来,可穿戴AR设备利用扫描仪和3D景深传感器的组合,就能确定货盘或包裹的数量(通过扫描每个包裹上的特殊标识),或者确定包裹的体积(通过测量设备)。测量值与预定义值相比较,结果呈现在拣货员眼前——最好两者一致。此类AR系统还可以扫描物品,检测是否有损坏或错误。

AR设备能够登记一批货物是否完整、可供分拣。

通过标识或先进的物体识别技术,捕捉货盘和包裹的数量、体积。

识别到无损包裹数量正确后,AR自动确认、交付分拣。

主要目的:节省时间,完整性检查,损坏检测

随着全球越来越多的地区经济开始腾飞,往来于新兴市场的运输量正在显著增长。这是物流供应商的巨大商机,但同时也增加了物流的复杂程度,原因在于世界各地的贸易条例及要求之间存在着巨大差异。

AR也许能在这方面为全球贸易服务供应商们提供价值。在发货前,AR系统可以帮助检查货物是否符合相关的进出口条例,或者帮助检查贸易文件填写是否正确、完整。AR设备可以扫描文件或货物搜寻关键词,自动给出修改建议或自动纠正商品编码分类。

在发货后,AR技术可以实时翻译贸易术语等贸易文件文本,从而大幅减少耽误在港口和储存上的时间。

为全球的贸易服务供应商提供AR支持

AR设备可以检查(打印版)贸易文件并识别商品编码分类。

实时翻译包裹标签或外国贸易术语

主要目的:加快贸易文件和国际货物的处理速度

很多严重依赖于实物商品畅通流转的经济流程往往受制于交通拥堵。据估计,交通拥堵每年让欧洲损失了约1%的国内生产总值(GDP),而且随着拥堵的愈发严重,人们愈发需要能提高正点率的解决方案。

未来我们将看到,提供实时交通数据从而优化路线(或在货物运输过程中重新规划路线)的动态交通支持会越来越普遍地应用于物流业中。AR驾驶助手应用(无论是显示在眼镜上还是挡风玻璃上)能够实时地在司机视野中呈现信息。实际上,AR系统将会成为目前导航系统的继承者,其关键优势在于司机的视线不用离开道路。AR系统还能为司机显示车辆和货物的关键信息(如货物温度)。

在运输车辆中使用AR设备(眼镜或挡风玻璃投影)代替传统导航系统

分析实时交通数据,在司机视野中显示相关信息(如拥堵情况以及代替路线)

叠加显示周围、车辆及货箱的关键信息(如冷箱的温度)

主要目的:行驶过程中优化路线,改善驾驶安全,把让司机分心的因素降至最低

如今,空运、水运及陆运这些货运方式高度依赖于数字数据和规划软件,以达到优化配载规划和提高车辆利用率的目的。每件货物的内容,重量,大小,目的地及后续处理都属于系统的考虑因素。即便系统或许还存在进一步改进的空间,货运配载的瓶颈往往是配载流程本身。

AR设备可助其一臂之力,它能够取代打印版的货物清单和配载说明。比如说在中转站里,配载员可以在AR设备上实时得知接下来该取哪个包裹,这个包裹应该放在车上的哪个位置。AR设备能够以箭头或在货车内部高亮显示适当目标区域的方式,为配载员提供配载指引。这一信息要么由规划软件事先生成,要么依赖于特定物体识别技术的实时计算。后一种方法可以用风靡全球的电脑游戏《俄罗斯方块》来解释,在这个游戏中,玩家必须根据下一个随机物体的形状,将它放置在恰当位置,从而尽可能填充空间、避免间隙。与目前纸质清单不同的是,基于AR的货物清单还能支持各种实时操作——这在配载过程中时有发生。

使用AR设备优化货运配载

配载员直接从AR设备显示屏商直接接收规划及指示(接下来拿哪件包裹、将它放在哪里)

让打印版的配载清单变得无关紧要

主要目的:加快货运配载流程

最后一公里是AR技术的另一个重要应用领域。人们对电子商务不断增长的依赖使得最后一公里配送服务呈爆炸式增长,这是供应链的最后一个环节,往往也是成本最高的一个环节。因此,在优化最后一公里配送以降低成本、提高利润这一领域中,AR设备的应用前景一片光明。

据估计,司机离开配送中心后有40%到60%的时间不在开车。这段时间,他们都在货箱里寻找接下来要配送的包裹。目前的物流行业中,司机想要找到包裹,只能靠自己对配载过程的深刻记忆。

未来在配送中心,每个司机通过AR设备看一下包裹,就会接收到该包裹的关键信息。该信息可包括运输商品的种类,每个包裹的重量、配送地址,是否易碎,是否需要正确摆放以避免损坏。接着,AR设备会实时计算每个包裹的空间需求,扫描车辆货箱寻找合适的空位,然后提示司机应该将包裹摆放在哪个位置,并记入规划路线中。

在高效智能的包裹配载以及AR设备为司机高亮显示正确包裹的帮助下,查找流程将会方便快捷得多,极大地节省了每一次配送的时间。

另外,AR还有助于减少包装损坏事件。目前包裹损坏的一个关键原因是,司机需要腾出手来关车门,只能将包裹放在地上或夹在胳膊里。有了AR设备,无需用手就能关上车门——司机可以通过语音或者眼球/头部的动作发送命令。

员工借助于可穿戴AR设备完成包裹处理、配载及配送的流程

透过AR设备看,所有包裹上都叠加了关键信息(如内容,重量,目的地)及处理指示,而且包裹经过智能配载,装在车厢里。

主要目的:改进处理流程,避免不当处理,确保配载优化

司机关上车门,手里拿着正确包裹,往往接下来会面临如何找到对应建筑的难题。第一次配送到某个地址时尤其如此,因为会存在许多的复杂因素,比如门牌号或街道名牌被遮挡或遗失,入口隐藏在后院里,或者像很多发展中国家那样,街道和建筑没有根据规则命名。

在这样的情况下,AR可以起到极大的帮助;司机将AR设备指向某个建筑或建筑群,它会显示出谷歌(微博)街景之类的信息,或源自其它数据库的相关详情。如果在公共数据库中找不到可用信息,还可以使用AR设备根据入口位置或其它当地特征来放置标记,从而逐渐建立起一个独立的数据库。下一次再配送到这个地址时,AR设备会访问之前收集的数据;同时渲染相应的虚拟信息图层。

有些时候,最后一米配送需要用到室内导航。尽管GPS导航在户外非常好用,但建筑物往往会对GPS信号造成严重干

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

智能手机 平板电脑 虚拟现实 增强现实 研究报告 计算机
0

聚焦多智时代,引领智能变革

© 多智时代(www.duozhishidai.com)版权所有 / 工信部备案 豫ICP备15012664号-1