通用汽车旗下的安吉星从 1995 年开始在北美向用户提供语音导航、救援、车辆安全防护、娱乐等信息服务,并且第一个进入中国市场;福特从 2010 年开始与微软合作推出车载信息系统 Ford Sync,这一系统可以识别 19 国语言,包括一些方言,能够理解一万条语音指令;近几年,丰田的 G-book、福特 My Ford 和日产的 CarWings 也开始随潮流涌现。
关键字:科大讯飞 奇瑞 语音识别
引用地址:打入奇瑞供应链,科大讯飞要带语音识别大闹汽车市场
这意味着,当我们驾驶时,不必分心在中控屏幕上选择目的地,也不必伸手去接听电话。甚至有一天,我们可以畅想:吩咐汽车去做任何事情。
下面回到现实。
汽车厂商每年在中控屏幕几十亿人民币的投入,本意是想提升汽车的科技感和用户操作的便捷性。但令他们失望的是,大部分车主并不为此而买单,依然习惯在车内用手机导航或者查询信息。
造成这一现象的原因可以简单理解为:以往一些初级的语音控制类的应用,比如导航、语音拨号等等,用户要启动这些服务必须按照产品手册的说明,完整地说出固定格式的句子,才能被机器识别。在这些应用中,数据库是简单而又原始的,在识别过程中也没有太多算法可言,它们只是负责「搬运」。
2014 年以前,科大讯飞主要的关注点还不在汽车上。当时团队认为语音在汽车上的应用只是一个点缀。那时讯飞的角色是一个小模块供应商,将语音技术授权授权给第三方厂商。
2014 年后,科大讯飞团队慢慢意识到语音有可能成为汽车上的刚性应用和入口,他们开始和汽车厂商接触与合作。为此还专门成立了一个百人规模的团队专门负责车载语音研发与服务的工作。
上周末,几家媒体参观了科大讯飞和奇瑞的总部。双方联合开发了一款深度定制语音技术的车载系统: Cloudrive2.0,搭载在奇瑞的新车艾瑞泽 5 车型上。
「这是一个整体的软件系统,包括信息服务、车和驾驶者的交互。」科大讯飞执行总裁吴晓如在媒体沟通会上说道。这意味着科大讯飞从语音技术的提供商,到现在成为一个「云加端」的软件和服务系统。
而这种云端与本地的打通,可以为一些本地无法完全识别的内容提供联网识别,并经由云端下载更新包来完善离线识别效果。
从功能上和操作上,这套系统与汽车厂商推出的车载系统并无二致:导航、语音控制、蓝牙电话、4G 上网和倒车影像等等,用户可以通过方向盘或中控台上的物理按键唤醒语音命令,也可以用「小艾你好」语音唤醒指令代替。
不过从体验上来说,讯飞的语音服务做得更加流畅。按照官方的说法,汽车在高速行驶时,语音的识别率也能保证在 90% 以上。这是因为在硬件上,讯飞使用了麦克风阵列定位人声,在驾驶和副驾驶位置的麦克风位于中控屏幕下方,可以准确定位音源位置。
一般说来,汽车场景下车载系统应该有三种交互方式:语音、触摸和按键。
触摸交互或按键交互是设定好的一层一层界面,比如点击第一个图标,然后出现第二个画面。语音方式并不一样,语音的交互是扁平化的:如果用户表达的意思足够精确,能够直接呈现最终结果。
「这给我们提出了一个很大的挑战,就是我们能不能基于用户对车载系统发生语音交互的时候,把用户最需要的那条信息呈现出来。」吴晓如告诉我们。
但事实上这项挑战在 6 个月内便完成了,并且还取得了不错的效果。科大讯飞汽车事业部总经理刘俊峰给出一个数字是:上线三四个月以来,用户的这种活跃的比例达到 85% 以上,在线平均时长达两个小时。
在与奇瑞合作之前,讯飞并没有车载系统的整合经验。为此,2015 年讯飞入股美行科技,后者是车载信息系统、电子地图软件、位置服务领域产品和服务商;中国移动作为讯飞的股东方,也提供一些资源上的合作,包括咪咕音乐的版权以及车联网相关的流量套餐服务;对于涉及到用户在服务过程中遇到的各类问题,讯飞又参股了呼叫中心公司。
有了这些资源和支持与整合,为讯飞快速推进 Cloudrive2.0 打下了基础。从另一个角度看,能与汽车厂商进行合作,这也证明讯飞的语音技术得到了前者的认可。
尽管如此,在媒体沟通会上吴晓如向我们坦言,目前在车载语音的技术环节上还需要继续突破。比如如何留下有效信息,过滤无效信息、如何适应多种噪音环境、如何保证在自然语言下,实现更有效地多轮人机交互等等。这也是下一阶段他们要攻克的难题。
上个月初,「互联网女皇」称号的玛丽·米克尔发布了一份互联网趋势报告,213 页的报告内容,十分之一的篇幅给了语音。她认为:语音技术的爆发,技术成熟是核心原因之一。目前,语音识别准确率已从 2010 年的 70% 上升到今年的 90%。可以预见的是,如果语音识别准确率从 95% 提升到 99%,将从量变引发质变。
吴晓如说,汽车在语音应用的门槛刚刚取得突破性进展,未来语音交互在汽车领域的应用将翻番。
上一篇:自动驾驶不可行?为啥大伙争先模仿特斯拉
下一篇:这个小公司凭啥证明人工智能是无人驾驶的未来?
推荐阅读最新更新时间:2024-05-03 00:32
奇瑞瑞虎7SPORT版正式上市,搭载国产最好发动机
今天为大家带来的就是2017款全新奇瑞瑞虎7最新消息,日前在奇瑞之夜上,奇瑞瑞虎7 SPORT版正式上市,新车共推出四款车型,官方指导价为10.99-15.09万元。下面让我们去了解一下。 外观方面并没有过于突出,于现款在售车型相比之下仅换装了黑色前杠和双边共两出排气设计,此外,新车还增加紫色车漆可选。 轴距为2670mm,其定位为一款紧凑级SUV。 全新酷黑内饰质感出色,与运动外观相呼应,平直对称是设计简约大方,功能按键整体布局一目了然,同时配备车内氛围灯,增加了车内的豪华感和科技感,体现出瑞虎对细节的把控,更符合我们年轻人的时尚品味。 该车搭载一台1.5T涡轮增压式发动机,该发动机最大输
[汽车电子]
科大讯飞虚胖症缘何难解?短期内难解如何赚钱问题?
问题缠身的 科大讯飞 并没有交出一份令投资者满意的三季报。多位分析师对记者说,科大讯飞面临的更大挑战是公司核心业务 智能语音 技术如何商业化,如何赚钱,而这绝非短期所能解决。 投资与回报不成正比,是科大讯飞所面临的最直接问题。10月24日,科大讯分公布的三季报显示,今年1-9月,公司实现营业收入52.83亿元,同比增长56%;归属于母公司股东的净利润2.19亿元,同比增长29.94%,扣非后归母净利润仅为2462.67万元,与去年同期相比下降了79.75%。只计算第三季度,则扣非后归母净利润为443万元,同比下滑89.65%。若再不计入资产减值损失,其主营业务经营利润只有616万,经营利率仅为0.3%。 公司坦言压力较大
[嵌入式]
语音识别的优缺点_语音识别功能介绍
语音识别的优缺点 优点: 语音识别与其他生物识别技术相比,不仅具有不会遗失和忘记、不需记忆、使用方便等特点,而且还具有用户接受程度高,声音输入设备造价低廉等优点。由于涉及不到用户的隐私问题,所以可以方便的推广应用。 缺点: 安防专家GlenGreer指出,虽然语音识别很方便,但由于非人性化的风险、远程控制和低准确度,它并不十分可靠。一个患上感冒的人有可能被错误的拒认而无法使用该语音识别系统。同时还有许多其它因素影响其准备性,比如说,声音样本的质量、情绪、背景噪音以及随着时间推移声音的变化等。 再者还有另一个关键问题就是缺少国际标准的规范。 语音识别功能介绍 语音识别技术就是让机器通过识别和理解过
[嵌入式]
初创公司Syntiant开发出1mW的语音识别边缘端人工智能芯片
初创公司Syntiant,开发将语音命令控制从云端迁移到设备端的人工智能芯片,日前其宣布推出了最新一代产品,功耗仅为1/1000瓦。可应用于始终通电,电池供电的消费类设备的理想选择,例如智能手机,耳塞,可穿戴设备,智能扬声器,智能家居锁和笔记本电脑。 NDP120将多个计算模块集成在一个裸片上。核心是第二代张量处理核心Syntiant Core 2,它是为深度学习的人工智能而定制设计的,其功率预算为1mW。该芯片还包含一个音频数字信号处理器(DSP)和超低功耗CPU。 定制设计的内核比其上代产品具有更高的性能,从而能够更有效率地运行神经网络(深度学习的基础)。 Syntiant的SoC基于该公司所谓的近内存架构,该架构
[嵌入式]
用苹果玩法玩语音,看清亚马逊的战略
eeworld网消息:很多同学都有点不太理解,而且中国的 AWE 家电展后,很多文章在分析中国的智能产品时,还经常拿来与 Echo 进行对比。无论是 CES 还是AWE,Echo 背后已经带上了一层耀眼的「光环」。 当然, Echo 是一个来自美国的智能产品,所以在中国的确很难买到。 很多同学也看过多篇有关 Echo 的文章,但是并没有体验过这款产品, 所以经常被各种概念弄得「云里雾里」,很多文章一边说 Echo,然后又提到 Alexa,如果你在网上搜索亚马逊 Alexa,可以发现有用户中心,有开发者中心,甚至还有基金会。笔者希望通过本篇文章来阐述一下 Echo 系列产品的关系,以及亚马逊的战略,希望能够对大家有所帮助,以下: 1
[安防电子]
应用、算法、芯片,“三位一体”浅析语音识别
雷锋网(公众号:雷锋网) AI科技评论按:本文作者为辰韬资本黄松延,原文首发于微信公众号:辰韬资本(ID: chentaoziben),雷锋网AI科技评论获其授权转载。 黄松延,浙江大学人工智能博士,前华为高级算法工程师,对深度学习及其应用有深入的研究,阅后若有所感,欢迎通过邮箱syhuang@chentao-capital.com或者微信号Nikola_629与他交流。 人工智能产业链由基础层、技术层与应用层构成,同样,智能语音识别亦由这三层组成。基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化,近年,语音识别准确率取得了不断的提升。 基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化,近年,语音识
[手机便携]
一种基于DSP的汉字语音识别系统设计
语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。语音识别经过四十多年的发展,已经显示出巨大的应用前景。本文从实现原理入手,介绍语音识别系统的实现方式。 1 概述 本汉语语音识别系统是一个非特定人的、孤立音语音识别系统。其中孤立音至少包括汉语的 400 多个调音节(不考虑声调)以及一些常用的词组。识别系统主要用于手持设备,如手机、掌上电脑。这些设备的 CPU 一般是DSP,硬件资源十分有限,而且大多不支持浮点运算。那么,对系统各个部分的设计首要考虑的是系统对硬件
[嵌入式]
采用STM32嵌入式语音识别电路模块设计
介绍了一种以ARM为核心的嵌入式语音识别模块的设计与实现。模块的核心处理单元选用ST公司的基于ARM Cortex-M3内核的32位处理器STM32F103C8T6。本模块以对话管理单元为中心,通过以LD3320芯片为核心的硬件单元实现语音识别功能,采用嵌入式操作系统μC/OS-II来实现统一的任务调度和外围设备管理。经过大量的实验数据验证,本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。 语音识别电路 图3为语音识别部分原理图,参照了ICRoute发布的LD3320数据手册进行设计。LD3320的内部集成了快速稳定的优化算法,不需外接Fla-sh、RAM,不需要用户事先训练和录音而完成非特定人语音识
[单片机]