你家爱车会“聊天”吗?(上)
一直以来,人类似乎都有一个“机甲”梦——让功能强大的机器听命于自己的语言、动作,甚至是意念,由此获得人体本身无法企及的能力。从“机甲”一直是个不乏人缘儿的科幻题材,就可见一斑。
汽车,作为我们触手可及的“机器”,可能是现实生活中能让人们最接近这个“机甲”梦想的物件儿了。所以自打汽车问世以来,人们就一直变着法儿的与爱车“说话”,让汽车能够及时、准确地领会自己的心思,也让自己能够获得非同一般的操控体验。
从最初以“原始”的机械传动的方式驾驭爱车,到后来借助电子控制,通过按钮、旋钮等机关发送指令,再到近年来开始流行的在车载触控屏上指指点点,汽车人机界面(HMI)已经过了几代更迭。今天,这个技术又处在了一个变革的前夜,多种HMI技术正排着队亟不可待地想进入汽车的驾驶舱,让未来我们与爱车的交互变得像和朋友聊天一样自然、舒坦。
向机器发送指令和信息,人们能够想到最自然的方式就是语音。所以,语音识别也是人们最早考虑的下一代车载HMI技术。今天,车载语音识别已经不再是一个概念,而是进入了实际的商用阶段。
比如近几年宝马在其3系车上集成的iDrive自然语音识别系统(NLU,Natural Language Understanding),按照一些测评,已经有一种“丝般顺滑”的体验,即使是一些口语话的指令,也可以做到准确识别。与此同时,语音识别也在迅速放低身价,在科大讯飞等国内语音技术平台的助力下,越来越多10万元的国产入门级主销车型中,语音识别已经是常客。
图1,宝马3中搭载了iDrive自然语音识别系统(图片来源:网络)
语音识别之所以有这样的商用成绩,自然与这些年来语音识别技术平台的出现和蓬勃发展相关,如国外的Nuance(宝马iDrive采用)、国内的科大讯飞等。
依托云计算和人工智能技术,语音识别率显著提高,用户体验也已经越过了用户心理预期的阈值;另一个关键要素是,这种更为开放、专业化的语音识别平台,“人人”可用,大大降低了车企获得相关技术的门槛,因此可以在短期内形成燎原之势。
同时,在基于大数据的更多学习和训练之后,语音识别正在向更智能化的语音助手转变,由单纯的接受和响应指令向为用户提供相关信息、协助决策转变。比如你说“车没油了”,语音助手就可以帮你找到附近的加油站,并规划最佳路线确保你尽快到达。
除了语音,手势是下一代车载HMI技术的另一个着力点。虽然车载手势识别的商用目前还没有全面铺开,但是其起步并不晚。
如在2015年的CES上,德尔福就展出了可以识别7种常见动作的手势识别系统,并率先在宝马7系高端车中应用。用户只要腾出一只手在中央扶手、换挡杆到中控屏幕这个范围之内比划一下,就可以实现接通/挂断电话、放大/减小音量等操作,而无需在按钮或触控屏上点来点去。
再如2016年,大陆也推出了自己的车载手势识别方案。与德尔福等其他厂商的方案不同,大陆的方案将识别区域从中控前转移到了方向盘和仪表盘之间,用户手握方向盘时,大拇指在方向盘上方左右两侧的透明塑料板上划动、敲击或双击,这些“小动作”就会被识别出来。大陆这一方案的设计初衷是:尽量减少用户手离开方向盘的情况,以确保安全。
图2:大陆开发的车载手势识别系统,用户无需手离方向盘即可操作(图片来源:网络)
与车载语音识技术不同,目前车载手势识别在究竟采用那种技术作为主流的问题上,还处在博弈之中。当下车载手势识别几种不同的技术路径包括:
ToF:是“Time of Flight”的简称,意思是“飞行时间”。ToF系统会将一束红外光发射到被测物体上,并通过一个CMOS图像传感器测量红外光往返于摄像头和被测物体之间的时间,由此来计算物体的空间距离和位置信息。上面提到的德尔福和大陆等已经商用的车载手势识别都是采用这种技术。
双目:也被称为“多角成像”技术,实际上就是采用两个摄像头同时采集图像,模仿人类双目成像的原理对3D手势信息进行采集和识别,其硬件成本相对较低,但是对相关的软件算法要去较高。这也是一些新锐手势识别公司比较关注的技术。
结构光:是一种比较成熟的3D位置测量技术。其原理是将激光通过光栅投射到被测物体上,通过监测激光落点位移的变化就可以推算出物体距离的远近。据悉,英特尔用于车载手势识别的实感技术就是基于此原理。
毫米波:毫米波雷达的原理与ToF技术类似,只是将测量的介质由光线变成了无线电波,系统会根据信号收发之间的时间差实时计算目标的位置数据。这种技术还处于探索性的验证阶段,谷歌是其粉丝,还为此推出了Project Soli计划。
上述的方案各有利弊,但目前从商用成熟度来看,ToF和双目识别技术受关注程度更高。但无论是哪种技术,想要付诸实用,需要技术供应商提供从硬件到软件算法在内的全方位的支持。
不过,无论是语音识别还是手势识别,从用户体验的角度来看都还不尽完美。比如语音识别不直接,需要唤醒,难免有延时,容易受环境噪音的影响。而手势识别,目前能够认识的手势种类还很有限,无法覆盖更复杂的人车交互需求。所以目前一种流行的思路是,将两者融合起来,形成一个整体的车载HMI。
在这种方案中,语音和手势不再是非此即彼的竞争关系,而是优势互补的合作关系:手势识别因其反应快的特性,会被用在一些高频操作上,如接电话、调整音量、调节空调、调控灯光等,同时也可作为唤醒语音识别功能的触发开关;
而语音识别,则进一步坐实其“驾驶助手”的位置,为用户提供更多智能化的决策信息。我们可以用一个直观的应用场景做说明:用户做出向上指的手势,手势识别成功捕捉到这一信息后直接唤醒语音系统,接收到用户“开天窗”的语音指令并立即执行。
总之,未来按钮和触屏等物理和图形化HMI依然会存在,不过人们与爱车“沟通”的习惯可能会逐渐过渡到语音、手势等自然交互界面上,这样一来,你和爱车之间就找到了一种毫无违和感的“聊天”语言。
往期相关文章回顾:
安富利
获取更多精彩内容