人工智能破译神经活动，脑机接口说出无言心声-电子工程世界

将计算机连通人脑，直接读取意识，这不是科幻。

　　顶尖学术期刊《自然》刚刚在线发表的一项工作就在脑机接口领域向前迈出了一大步。加州大学旧金山分校（UCSF）的神经外科学家Edward Chang教授与其同事开发出一种解码器，可以将人脑神经信号转化为语音，为帮助无法说话的患者实现发声交流完成了有力的概念验证。

　　脑机接口（BCI），指的是在人或动物大脑与外部设备之间创建的直接连接，实现脑与设备的信息交换。近年来，这一技术的快速发展正在为那些神经受损或严重运动障碍的人们改善生活质量。比如，帮助瘫痪人士靠“想”控制机械臂取物，或是控制屏幕上的光标打出字词。然而，“意念打字”的速度目前只能达到每分钟10来个单词，比正常的人类说话速度要慢得多，还远不能满足患者的沟通需求。

　　因此，一些科学家们试图解码大脑中的言语信号，并通过人工语音合成，把“想”的内容真正“说”出来！

▲本次研究的主要负责人Edward Chang教授是一名神经外科医生，擅长治疗成人癫痫、脑肿瘤等疾病，研究主要集中于语言、运动和情感的脑机制（图片来源：UCSF官网）

　　要挑战重建语音的难题，需要首先实现对表征语音动作的神经活动进行解码。一些接受开颅手术的癫痫患者为神经科学家提供了宝贵的数据。由于需要为一些患者定位癫痫发作的源头，神经外科医生会通过手术在患者颅内植入电极，以便监测其大脑活动。在此基础上，研究人员采用了一种叫作高密度脑皮层电图（ECoG）的技术，直接记录下受试者大脑皮层的神经活动。

　　受试者首先按要求大声读出几百条句子，与此同时，研究人员记录他们大脑的语音产生中心——腹侧感觉运动皮层区域的神经活动。

　　利用循环神经网络（RNN），研究人员分两步破译了采集到的神经信号。第一步，他们将神经信号转换为表征发音器官动作的信号，包括下巴、喉、嘴唇和舌头动作相关的脑信号。然后，根据解码出来的发音器官动作，把信号转换为说出的词句。

▲脑机接口实现语音合成的图示（图片来源：参考资料[1]）

　　这种创新的解码方法有助于解决重建语音时的声学失真问题，让合成的语音更容易被人听清、听懂，接下来的测试结果验证了这一点。研究人员在亚马逊的众包任务平台Mechanical Turk上招募听众来辨认解码器合成的语音，包含325个单词和101句整句。检验测试中，听众可以成功地识别出单词，和对自然语音的感知模式一致。对于合成语音发出的整句，听众也能识别出句子的意思。

　　第一作者Gopala Anumanchipalli博士认为，该结果意味着，这种神经合成语音对于现实世界的应用来说已经达到即刻听懂的实用程度。

　　更有意义的是，研究人员还测试了解码器对于不出声说话的语音合成能力。一名被试先按要求说出句子，然后默念同一个句子，也就是只有发音的动作、并不发出声音——这种情形更符合某些患者的实际情况。结果显示，解码器对默念动作合成的语音频谱与同一句句子的有声频谱是相似的。

　　尽管如生物工程学教授Chethan Pandarinath等人在同期《自然》上刊发的评论中所言，这一系统要真正成为一个临床可行的语音脑机接口还面临许多挑战，但毫无疑问的一点是，脑机接口技术的持续进步将让有发声障碍的人重新获得自由说出心声的能力，与周遭世界重新建立联系。甚至，脑机接口的发展还会让更多的人有可能突破人类自身的局限，让意识的疆界不断拓展。

关键字：神经语音解码器心声引用地址：人工智能破译神经活动，脑机接口说出无言心声

上一篇：智能感知推进机器视觉应用的发展
下一篇：科幻变现实人工智能走进寻常百姓家

推荐阅读最新更新时间：2024-10-13 13:12

启英泰伦第三代语音识别芯片即将正式发布

　　“三芯起万物声”启英泰伦第三代语音识别芯片要来了，2022年7月28日启英泰伦第三代语音识别芯片即将发布，我们一起先来了解一下。　　为优化启英泰伦第三代语音识别芯片的性能，启英泰伦董事长何云鹏带领团队几乎每年都会迭代并量产一颗更高性能的芯片。经过多年技术积累，该芯片已经迭代了三次，让人工智能的服务愈加完善。一代只能实现离线语音识别，到二代就可以精准识别各地方言、不同说话人的身份，并据此作出个性化响应。第三代则摆脱了前两代只识别固定词汇的限制，能从人们随意的日常语言中识别和理解具体语义，并执行命令。　　七年来，启英泰伦发布CI1006、CI1002、CI1102、CI1103、CI1122等九颗芯片，迭代三代 BN

[嵌入式]

谷歌、微软、苹果……哪家的语音助手支持语言种类最多?

与大众认知相反，英语其实并不是全球使用人数最多的语言，甚至连第二名都排不上。事实上，排在第一位的是汉语，第二是西班牙语，西日耳曼语排在第三位，接下来是印地语、阿拉伯语、葡萄牙语、孟加拉语和俄语。更令人意想不到的是，Google Assistant、苹果的 Siri、亚马逊的 Alexa和微软的 Cortana 虽然已经无比强大，但其实只能识别这些语言当中相对较少的一部分。直到今年秋天（注），三星的Bixby才可以识别德语、法语、意大利语和西班牙语，而这些语言的全球使用总人数高达6.16亿人。Cortana 更是花了好几年时间才精通西班牙语、法语和葡萄牙语。为什么识别新语言的进度如此缓慢？究其原因，主要还是训练语音识别算

[手机便携]

谷歌、微软、苹果……哪家的<font color='red'>语音</font>助手支持语言种类最多?

说话人语音特征子空间分离及识别应用

1 引言随着电话银行等网络电子消费的普及，说话人识别作为一种有效的身份认证手段，其技术特点和优越性越来越明显，在国防安全、司法和金融等各应用领域的价值越来越显得重要。目前说话人识别的主要方法一般通过在语音特征观察空间建立说话人模型进行，如基于VQ的码本模型识别方法、基于GMM模型的识别方法以及其他一些方法，这些方法大都利用了说话人语音特征的统计特性。但是，说话人识别应用中存在的两个主要问题是：(1)由于语音特征的时变性，模型训练时期和实际识别时期语音特征发生变化而导致识别性能的下降，而目前这些方法只能在一定程度上处理这种变化；(2)实际应用中往往需要能通过较短的语音及时识别说话人身份，但目前这些方法一般需要输入3秒以上的

[嵌入式]

业界首个THX认证方案诞生—Synaptics AudioSmart USB-C编解码器

电子网消息，Synaptics今日宣布其AudioSmart® CX21988-THX成为业界首个荣获THX认证的USB-C语音编解码器解决方案。通过提供获得THX认证的USB-C语音编解码器，Synaptics®可以为OEM厂商供应重要的搭建模块，为具备THX认证的耳机和头戴式耳机、移动游戏设备以及其他个人语音设备的开发带来巨大领先优势。THX由电影制片人George Lucas于1983年创立，为在质量、兼容性以及性能方面不做出让步的产品提供国际公认的认证。 THX技术与运营部高级副总裁Peter Vasay表示，“在耳机上开发一个卓越的音响套件，特别是能够精准再现混合声场的套件，需要专业级别的配件强强联合。Synapti

[半导体设计/制造]

罗德与施瓦茨空中交通管制VoIP语音通信系统已在HIAL机场运行

罗德与施瓦茨公司首次在英国为高地&海岛机场有限公司（HIAL）成功的安装并服役三套全部基于IP的 R&S VCS-4G内话系统，地点位于斯托诺韦，贝库拉和威克机场。所有三套系统支持联合机场和程序服务的条款。近些年来，HIAL机场的空中交通总量逐步增加，对高地和海岛区域的经济越来越重要。为了能保持空中交通服务的高标准，HIAL决定替换掉位于斯托诺韦，贝库拉和威克机场的传统内话系统。HIAL一直尝试购买新的技术先进的数字化内话系统，以便可以成功的对接机场现有的通信设施并提供面向未来的具有成本效益的解决方案。经过竞标，罗德与施瓦茨获得了三套新的全IP内话系统的合同。罗德与施瓦茨的工程团队在HIAL项目团队的协助下，已经成功的

[网络通信]

罗德与施瓦茨空中交通管制VoIP<font color='red'>语音</font>通信系统已在HIAL机场运行

基于AVR单片机的语音识别系统设计

0 引言传统的人机交互依靠复杂的键盘或按钮来实现，随着科技的发展，一些新型的人机交互方式也随之诞生，带给人们全新的体验。基于语音识别的人机交互方式是目前热门的技术之一。但是语音识别功能算法复杂、计算量大，一般在计算机上实现，即使是嵌入式方面，多数方案也需要运算能力强的ARM或DSP，并且外扩RAM、FLASH等资源，增加了硬件成本，这些特点无疑限制了语音识别技术的应用，尤其是嵌入式领域。本系统采用的主控MCU为Atmel公司的ATMEGA128，语音识别功能则采用ICRoute公司的单芯片LD3320。LD3320内部集成优化过的语音识别算法，无需外部FLASH，RAM资源，可以很好地完成非特定人的语音识别任务。 1

[单片机]

语音识别技术进军美医疗业

据国外媒体报道，如今市面上存在大量语音识别技术的医疗辅助产品，旨在帮助医生更快更全面地浏览病人的相关信息。如今，这种发展迅速的技术不仅仅只限于被动地接收医生的信息输入。 Dragon语音识别软件的制造商Nuance最近新上市了一款产品，这款产品是通过内嵌在医院电子医疗记录系统里发挥作用的。Nuance相关发言人Nick Van Terheyden表示，这款产品能够让医生用语音输入病人信息，验证和突出显示相关医疗记录，核对病史记录和进一步询问问题。医生也可以进行信息编辑以确保信息的精确度。 M-Modal，作为Nuance强有力的竞争对手，也在打造一款功能类似的产品，允许内科医生基于移动装置实时记录病

[医疗电子]

7首旋律+欢迎光临、欢迎惠顾”语音，集成电路原理图

如图所示是“欢迎光临、欢迎惠顾”声光语音，音乐集成电路原理图。IC内部存贮2段。欢迎光临、欢迎惠顾”语音信息和7首旋律优美、保真度高的中外名曲。该语音IC具备以下三大特点： 1.所存贮的2段语音信息可按照实际用途分为：“欢迎光临”、“欢迎惠顾”、“欢迎光临、欢迎惠顾”单段语音或“欢迎光临”、“欢迎惠顾”2段语音以及“欢迎光临”、“欢迎惠顾”、“欢迎光临、欢迎惠顾”3段语音输出； 2.触发方式灵活多样：脉冲触发、电平触发、顺次触发、随机触发、循环触发等； 3.声光同步／异步闪烁、流水闪亮等。

[嵌入式]

7首旋律+欢迎光临、欢迎惠顾”<font color='red'>语音</font>，集成电路原理图

热门资源推荐
热门放大器推荐

小广播