车载一体机的“尚方宝剑”：解密汽车语音操控系统-电子工程世界

过去的一年，围绕汽车与互联网发生了几件大事。

　　iOS in the Car横空出世，将苹果气质植入汽车中控；Tesla风潮席卷全球，17寸中控大屏同样贵气十足。新年伊始，Google携奥迪等车厂之力组建OAA开放汽车联盟，誓要一洗行业颓靡之气，打造卓越车内生活体验。一时间江湖群雄四起，汽车上的这块“第四屏”无疑将成为今年的行业热点。

　　然而车载屏幕终究不同于传统屏幕。人们在使用手机、平板、电脑时所处环境是安全的，可以专注于屏幕内容，但车载屏幕必须考虑用户驾车使用时的安全性，这意味着需要在交互上下苦工，以提升驾驶时的操作精度并尽量减少对用户的精力分散程度。

　　这也正是巨头正在着力突破的地方，但归根究底，靠优化“触控交互”是不足以真正保障安全的，最佳的解决方案应当是“语音交互”——用户无需分心去看屏幕，只要讲话就能实现所有功能，既确保安全性，也提升效率。iOS in the Car主打用类似Siri的方式完成操控，其用意也正是如此。

　　围绕语音控制这一领域，当前叫得比较响的产品有两款，其一沃尔沃在今年CES大会上推出的概念车Concept Coupe，尽管主打了Voice Control的理念，但却并没有展示任何细节，究竟要如何交互，发出指令是说一句话还是说特定的几个命令词完全不知道；另一款是福特与微软合作推出的SYNC，主要强调了车辆与手机通讯器材的无线通讯，但其语音控制能力仍停留在很初级的阶段（比如可以在开车时接收短信但想要回复却必须停车手动操作）。后装市场上一些所谓的“语音控制”也只是在其产品的局部功能上得到实现。比如想要语音控制某个应用，需要先手动打开它，通过若干步骤进入某个特定的界面，然后输入语音指令才有效，而此时想要语音控制其他应用就必须手动先退出该应用，再打开新应用才能发出语音指令。发出命令时也需要遵循特定的讲话规则，否则它就听不懂。

　　究其原因，自然语言处理是一项复杂艰深的技术。首先是语音识别的精确性（如何把讲出的话变成一段正确的文字），其次是语义理解的准确性（让语音助手“理解”这段文字中包含的用户需求），最后才是提供针对性的动作。要理解人们多样化的语言指令需要庞大的语料库作支撑，所以这项技术往往只能联网实现，想要离线使用，对于语义分析将是一项巨大的挑战。受制于技术实力，行业上已有的产品只能实现局部语音控制（需要识别的指令相对单一），这样的解决方案是很不完备的。

　　但这一难题日前终于被攻克。位于北京的智歌科技团队成功实现了全局语音控制功能，并且还能在不联网的情况下使用，这是该项技术在全球范围内首次运用于车载终端，而智歌也是行业内唯一一家敢做硬件全局语音按键的公司（顺带一提，智歌的Boss就是传说中将Android带入中国的男人，他在微软亚洲研究院工作时专攻的就是语音识别和语义理解）。这意味着用户在任何时间、任何界面环境下都能一键呼出语音助手，实现任何一项想要的功能。比如在听音乐时打开Google检索歌手信息，在听广播时打开百度导航，在无聊时让语音助手讲个故事，或是直接调戏TA……相比之下，其他厂商的“局部语音”每执行一项功能都会多出几个步骤，也更容易出事故。

　1. 听汪峰的歌时想找他其他的歌，一键呼出语音功能并说出“搜索汪峰的歌”：

　　语音在线搜索

　　2. 语音功能识别指令后迅速给出反馈：

　　在线搜索到歌曲

　　3. 自动跳转到搜索汪峰歌曲的百度页面

　　自动跳转到百度音乐

　　1. 听收音机时需要使用导航，一键呼出语音功能并说出“导航到中国传媒大学”：

　　导航目的地语音

　　2. 语音功能识别指令后打开百度导航并自动设定线路：

　　打开导航软件，搜索目的

路径规划

　3. 开始导航：