语音控制技术让每一个家电都能说会听
图源:ZinetroN/ShutterStock.com
1. 云端物联网
2. 云端语音控制技术基本解决方案步骤
1. Universal Windows Platform(UWP)
2. Cognitive Service 的语音识别API和SDK
3. Language Understanding Intelligent Service(LUIS)
4. 运行Windows 10 IoT核心版的Raspberry Pi 3
1. 核心技术
2. 架构
3. 功能
4. 解决方案
Azure云端语音控制和识别技术
图源:https://zhuanlan.zhihu.com/p/53639416
云端物联网
Azure TTS
- 语音识别是指语音到文本的转化。Azure平台的TTS(text to speech)采用通用语言模型,该模型对Microsoft已有数据进行了训练,并部署在云端,也可以创建和训练自定义的语言模型,根据需要选择特定的词汇并将其加入训练数据中。
- 自然语言分析/自然语言处理,是机器学习的一部分,设计模型并进行训练。
对话管理的任务主要有以下三点:
预测用户意图
分析对话内容,机器学习模型预测,确定下一步做什么。作为接口与后端/任务模型进行交互
作为应用程序接口与服务器端或模型进行请求交互,获取反馈结果,生成文字结果。提供语义分析结果的期望值
根据用户的提问,通过一系列的语义解析,做出满足用户期望的回应。1)语言答案的文本生成是通过模型分析用户的指令并作出文字回应。2)语音合成技术主要作用是将文本转化成拟人化语音的需求,基础的Azure云端语音合成使用语音SDK或REST API使用标准(详细说明见下文),神经或自定义语音实现文本转语音的过程。
云端语音控制技术基本解决方案步骤
Azure UWP平台
对话模式
对话模式是人机语言交互的核心,所有模式围绕其展开。当用户发出指令,系统便切换到了对话模式。Azure上使用UWP应用平台开发一个界面,用于监测人声触发(例如:对平台说:‘Hi,cloud!’)成功与否。听写模式
使用者说出一段较长的语音,然后等待语音识别的结果。当‘Hi,cloud!’指令发起后,用户正式发出指令(说出想对机器说的话),这时语音便传到了语义分析系统(Azure LUIS)。内容传入语义分析系统,Azure上的实时语音转文本服务使用初始化通用语言模型,通过REST API/Speech软件开发包(SDK)完成。交互模式
使用者发出简短的请求,并期望应用程序执行响应。交互模式主要是指将语音识别和文字到语音的转换过程嵌入到应用程序中去。本文例子中,Azure云端部署语音控制系统的交互模式体现在与用户交互的Universal Windows Platform(UWP)应用中。在UWP上开发一个简单的界面供用户操控,或供开发者测试使用。
相关主要技术说明
Universal Windows Platform(UWP)
Windows通用平台
Windows通用应用平台,同一个API可以在电脑端、手机端或其他Windows10设备通用。换句话说,同样的代码可以在不同的终端运行,不必为不同的平台写不同的代码。
Cognitive Service 的语音识别REST API和SDK
语音识别
下面通过图示说明云上的REST API:
图源:https://gunnarpeipman.com
这是REST Client应用于Application(应用程序)并在其中创建REST Client的实例,然后在Application上调用一些方法。当调用REST Client方法时,该方法将输入转换为HTTP请求,并将请求发送到REST API。来自端点的响应是HTTP响应,REST Client将其转换为Application可识别的类型,并返回给Application端。
SDK即为可以调用的库,支持Python、C#、C++、Java、JavaScript、Objective-C/Swift。
官方文献明确指出:“作为语音SDK的一种替代方法,语音服务允许使用REST API将语音转换为文本。每个可访问的终结点都与某个区域相关联。应用程序需要所用终结点的订阅密钥。REST API非常有限,只应在语音SDK不能使用的情况下使用。”
Language Understanding Intelligent Service (LUIS)
Azure LUIS
- 下面通过图示说明云上的REST API:
图源:https://docs.microsoft.com
目的性(动词)
“检查”就是一个动词,LUIS模型最多接受80个目的性词汇。完整的语言内容
用户发出的完整指令,LUIS模型最多接受500字的语音请求。实体(名词)
湿度是一个名词。LUIS模型最多接受30个实体名词。LUIS定义特征,意思就是当你的模型很难识别某一个或几个单词的时候,可以自动加进数据中进行再训练。
运行Windows 10 IoT核心版的Raspberry Pi 3
发送电信号
Raspberry Pi是一个开发板,可以连接到不同类型的传感器。Raspberry Pi可以被用作Web服务器,该服务器接收不同的解释命令并发送电信号,以控制安装在Smart Home中的家用电器。
语音控制技术如何应用于家电
图源:https://www.iotnewsportal.com
核心技术
在Raspberry Pi 3上运行UWP
在Raspberry Pi 3上运行的Universal Windows Platform(UWP)应用,使用语音识别API与传感器和用户进行交互,LUIS进行语义分析,经由Raspberry Pi 3将用户的问题传入,最后通过Cognitive Service 的语音识别API技术给出答案。
架构
详见下图
图源:https://azure.microsoft.com
功能
- 存储数据,通过传感器搜集数据并存储在云端。
- 语音到文本和文本到语音的API,用于识别用户提出的问题,并使用语音提供答案。
- LUIS进行语音识别,语义分析,通过预先训练的模型预测答案,以准确响应客户的指令。
通过Raspberry Pi 3传入语音,和Cognitive Services的语音识别API,让家电可以回答用户提出的问题。
解决方案
https://microsoft.github.io/techcasestudies/iot/2017/06/02/Iomote.html
数据到云端
从传感器到云端数据库的数据传输过程已经可以通过完善的架构实现,客户可以直接使用不同类型的数据库,以满足不同的需求。开展语音对话:UWP应用
例如:用户希望了解家里的湿度,‘Hey, cloud !’‘What is the humidity in the room now? ’通过UWP平台进行文本输出显示,UWP应用将在家中安装的Raspberry Pi 3上运行,该应用程序将能够与所有传感器和执行器进行通信,系统被触发后,问题会被传到LUIS中进行语义分析。问题分析,与LUIS连接
LUIS用于了解从Raspberry Pi 3接收的命令。经过对模型的训练,应用程序能够识别意图:检索室内湿度。之后,将LUIS API添加到UWP应用程序中,用户触发命令“Hey, cloud ! ”之后,所有内容通过API发送到LUIS进行分析。LUIS在UWP内被调用,接收输入并分析意图。根据预测意图的置信度向用户提供正确答案,将命令发送到IoT中心以获取传感器检测到的温度。开发网页端应用
开发一个网页端应用程序用于设备管理。该程序可以显示连接到IoT中心的所有传感器,使管理设备变得更加容易,实现重新启动、固件更新等功能。人机交互
UWP应用与网页端应用进行交互给客户进行响应,网页端应用负责将指令发送到指定的传感器,从特定的传感器检索当前室内的空气湿度,回答用户问题,最后通过“文本到语音”API向用户提供当前室内的湿度值。
总结
语音交互为用户提供了一种全新的家居控制方式,使家用电器能说会听,与此同时,当下语言识别面临的困难也不容忽视,主要包括以下几点:
中文方言的识别/不同国家英语口音的识别。
模型预测准确度:
想要使语音识别达到一个近似于人大脑的效果,必须结合语言学、心理学及生理学等领域知识达到与人近似的情感分析。此外,预测模型是不可能达到百分之百准确的,总会有新的指令、新的词汇出现,这时,模型的不断迭代训练变得尤为重要。排除噪声干扰:
让语音控制系统精准定位到与其交互的用户声音,而不是其他较高音量的噪音。
作者认为,想要让机器像人一样思考问题,最大的挑战是机器学习/人工智能技术与医学(生理和心理学)的结合,因为当今科学界懂得医学知识的人工智能科学家寥寥无几。家用电器的人机对话可以大大减轻用户的劳动力,机器有了情感以后,便可以增加聊天功能,机器会像朋友一样在回答问题之余闲聊几句,增添生活的乐趣。此外,机器对温度等数据的把控度极为精准,这是人类无法达到的。
综上所述,语音控制技术应用于家用电器是非常有前景的项目,未来会说话的家用电器会普及所有家庭。将来希望大量科学家进入这个领域,致力于不断创新与研发,使这一目标早日实现。
参考文献及网站
她希望她的文章能引起读者们对人工智能的兴趣,以激励更多的专业人员致力于这个领域,将AI与云技术和大数据结合起来,以使人们的生活更加安全便捷。
该发布文章为独家原创文章,转载请注明来源。对于未经许可的复制和不符合要求的转载我们将保留依法追究法律责任的权利。
贸泽电子(Mouser Electronics)是一家全球授权半导体和电子元器件授权分销商,服务全球广大电子设计群体。贸泽电子原厂授权分销超过1,100家知名品牌,可订购500多万种在线产品,为客户提供一站式采购平台,欢迎关注我们,获取第一手的设计与产业资讯信息!