清微智能全球首款可重构超低功耗语音AI芯片开始量产

发布者:翅膀小鹰最新更新时间:2019-06-28 来源: 心缘 智东西关键字:AI  低功耗 手机看文章 扫描二维码
随时随地手机看文章

最近,脱胎于清华大学微电子所Thinker团队的AI芯片创企清微智能迎来新进展:


全球首款可重构超低功耗语音人工智能(AI)芯片TX210已实现规模化量产,于6月中旬正式交付市场,而此时清微智能距成立还不到1年。


这是一款语音SoC芯片,针对手机、可穿戴设备、智能家居等多种应用场景的智能终端产品开发,工作功耗不超过2mW,语音活动检测(VAD)功耗小于100uW,延时不到10ms。


清微智能,拆开来,就是清华、微电子、人工智能,也就代表了这家公司的定位——专注可重构计算芯片,提供以端侧为基础,并向云侧延伸的芯片产品及解决方案。


其核心技术团队来自清华微电子学研究所(以下简称微电子所),其芯片所采用的架构正是中国芯片技术学术领军者——中国半导体行业协会IC设计分会理事长、清华大学微电子所所长魏少军教授所带领研发的可重构计算架构。


谋定而后动,脱胎清华微电子系


清微智能成立于2018年7月,其技术脱胎于清华大学微电子学Thinker团队。


如今的芯片产业,放眼望去,数不胜数的国内外半导体企业高管从清华大学电子工程系和微电子所走出。


而微电子所的灵魂人物——现任清华大学微电子研究所所长、中国半导体行业协会IC设计分会理事长魏少军教授,在过去的十几年间一直深耕于一项核心技术——“软件定义芯片”,即可重构计算芯片技术。


意识到可重构计算架构对于芯片算力提升和功耗降低的巨大优势,2006年,魏少军教授牵头成立了清华大学可重构计算研究团队,而这支团队后来成为清微智能的核心。


2015年,AI复兴,对芯片运算能力产生了远高于传统芯片的要求,这个时候,沉寂了9年的可重构计算因其与AI算法契合的特性,开始重新进入“聚光灯下”。


自2016年起,基于可重构计算架构,魏少军教授团队中的清华大学微纳电子系副系主任尹首一副教授带队设计研发了4款Thinker系列的低功耗终端AI芯片,分别是实验性质的验证芯片Thinker I、人脸识别芯片Thinker II、语音识别芯片Thinker S、语音识别芯片Thinker IM。(AI芯片终极难题 被清华大学IC男神解决了!)


image.png


这三款芯片的设计方案一问世,就收获了国际学术界的认可。比如Thinker-I首次出现在2017VLSI国际研讨会上时,外界评价它“突破了神经网络计算和访存瓶颈,实现了高能效多模态混合神经网络计算。”


而清微智能CEO王博的本科和硕士均在北京邮电大学计算机通信专业就读,他与清华大学Thinker团队的相识,却来自一段同学缘分。


彼时,王博还在一家云计算方案提供商工作,负责智能硬件产品,他在做一款人脸识别智能门锁时,想要找到合适的芯片,却发现市面上的高通等公司无法满足他们对能耗比等性能的需求。


尹首一副教授的大学同学是王博的高中同学,两人因此结识。


王博得知尹首一副教授在带领Thinker团队做AI芯片,看到其芯片设计方案拥有出色的能耗比,再经过深入了解他们所设计的可重构计算架构的技术,王博对这一架构的扩展性感到认可,觉得这条路线是可行的。


预测到AIoT市场将步入全面爆发期后,2018年7月,王博牵头在北京中关村成立了清微智能公司,将技术产品化,由王博任CEO,尹首一副教授为首席科学家,欧阳鹏博士任CTO和Thinker芯片主架构师。


Thinker团队原本就分为两部分,一部分是尹首一副教授带领一些博士生从事整个架构的设计和优化工作,另一部分是清华以社招形式招进来的专门负责芯片实现的工程师。


清微智能的初始技术团队主要来自Thinker团队中负责实现芯片的工程师们,约一二十人,如今其团队数量已扩展到70多人。团队成员来自清华大学、NVIDIA、Sony等知名高校和企业,在半导体行业具备多年经验。


去年第三季度,清微智能拿到百度战投领投的近亿元天使轮融资,由百度战投、分众传媒、禧筠资本、国隆资本、西子联合控股等联合投资,而新一轮融资计划也将于近期启动。


而清微智能在成立不足一年的时间,就交出了TX210语音芯片百万数量级的量产,图像芯片也将于今年12月量产,这一成就,源自清华大学十多年扎实的技术积累、200多项技术专利。


软件定义芯片:可重构计算芯片架构


在今年的全球AI芯片峰会GTIC 2019上,魏少军教授曾展示这样一张PPT。他将芯片分成三部分:第一部分是可更多编程的,如CPU;第二部分是能少量编程的,如GPU;第三部分是不能编程的,如专用芯片。


image.png


除了可编程性,这些不同计算架构的主要差别在于能效。专用芯片到GPU之间有1000倍的能效差距,而1000倍是一个很重要的分界线。


魏少军教授表示,如果我们的AI芯片做不到比GPU高1000倍的能效,就不能满足人们在终端侧的需求。


传统的终端AI芯片,主要基于CPU、DSP、GPU、NPU等架构,这些架构本质属于指令驱动的计算模式,属于冯·诺依曼架构。


这些架构在具体计算过程中,面向某一特定领域,往往存在高能效和灵活性不可兼得的问题,比如华为旗舰手机中强大的麒麟芯片,就不适用于安防摄像头、智能家居等场景。

它们需要从指令存储器中加载指令并解析指令,然后指导执行单元进行计算。在数据计算中,这是一种灵活但是低效的时域计算模式。


此外,在AI芯片的研发过程中,也有团队利用单指令流多数据流(SIMD)的方式来提高数据复用,从而减少指令解析,但是SIMD面向的是同构的操作,当指令功能变换时,仍需要重复前面的过程。


image.png


为了兼具高能效和可编程性,清华大学Thinker团队致力于研究的是一种无需指令驱动的计算模式,即动态可重构计算架构(CGRA,Coarse grain reconfigurable architecture),也就是上图红色区域。


它是一种非冯·诺依曼架构,简单而言,就是将软件通过不同的管道输送到硬件中来执行功能,使得芯片能够实时地根据软件/产品的需求改变功能,实现更加灵活的芯片设计。

传统的芯片需要让应用来适应架构,而CGRA架构更加灵活,能够根据数据流的特点,让软件来调整芯片的计算能力,在最合理分配和使用算力的同时,成倍节约了数据存储和传输带宽。


王博介绍说,CGRA架构适合AI、视频编解码、语音处理等计算密集型场景,但不适用于以逻辑判断为主的非计算密集型场景。


image.png


CGRA基于数据流图,面向的是异构的空域计算,一次配置形成固定的电路结构,从而以接近ASIC效率反复执行,资源利用率和数据复用率高。


同时,相比专用集成电路(ASIC)方式的固定电路结构,它又可以根据应用或者算法进行电路配置,使得硬件重新形成不同的计算电路结构,具有非常强的灵活性。


image.png

▲“指令驱动”的时域计算模式 v.s. “数据驱动、动态重构”的空间计算模式


以这个更低能耗和更强灵活性的架构为基础,清微智能CTO欧阳鹏透露,清微智能在具体的芯片设计上,又做了两方面深化。


1、支持混合精度计算


主流神经网络算法具有混合数据精度表示的特点,即不同的神经网络层可用不同数据位宽来表达中间数据或者权重数据的精度。


然而,传统AI架构无法高效支持混合精度计算,通常只能支持单一精度计算,或者只能通过扩展资源方式支持少数几种精度。


相较而言,清微AI芯片产品能支持从1bit-16bit的混合精度计算,同时,不同的神经网络层可以采用不同的精度表示,可以实时切换精度。


这源自CGRA架构的特点,在具体实现过程中,可重构模式动态重组计算资源和带宽,根据精度表示,让计算资源和带宽接近满负荷进行计算,从而将混合精度网络下的计算资源和带宽的利用率逼近极限,高效支持多种混合精度的神经网络。


2、优化非神经网络计算效率


AI算法不止有神经网络中卷积层、全连接层等逻辑,还有非神经网络计算逻辑。


比如在人脸检测和识别中,有NMS(非极大值抑制)以及仿射变换;在语音识别中,有FBANK/MFCC特征提取以及声学解码等。


而与此同时,非神经网络算法也在快速演进。比如最新NMS已经演化到Soft-NMS。

传统AI芯片架构强调了神经网络逻辑的计算效率,却忽视了非神经网络逻辑的计算效率。

针对非神经网络逻辑,一般仍然采用CPU或者DSP进行处理,或者采用ASIC进行固化。

清微AI芯片产品针对神经网络部分和非神经网络部分均进行了计算效率考虑。


针对非神经网络处理逻辑,从算法数据流图进行空间映射,以接近ASIC效率计算。


同时,其产品通过配置形成不同的电路结构来动态处理不同非神经网络计算逻辑,在保证灵活性前提下,计算效率有极大提升。


首款语音AI芯片量产,超强能效比


基于创新的CGRA架构,清微智能第一款实现规模化量产的语音AI芯片TX210拥有业界领先的算力、能耗比、时延、面积和成本。


image.png


据介绍,TX210采用台积电40nm ULP工艺,支持WLCSP和QFN两种产品封装。


该芯片支持离线语音唤醒功能,支持5个唤醒词和10个命令词,还支持声纹识别。它支持3-5m的远场语音唤醒和识别,工作频率为50MHz,延迟不到10ms。


继承CGRA架构的特点,TX210芯片可编程、可重构,在结构上有着极强的灵活性,支持多比特DNN神经网络,可以支持1-16bit位宽的神经网络计算,也支持FFT/MEL FILTER等。

由于语音AI芯片的应用场景非常丰富,可以应用至智能手机、可穿戴智能设备、小家电、大家电、玩具及车载等众多场景中,而低能耗又是从终端设备到用户都非常重视的性能。

对此,TX210针对语音交互场景做了更多优化。


比如为了保持在低功耗状态,它采用多级功耗唤醒模式,只有在通过麦克风检测到人声时,它才会被激活,准确监听到“唤醒词”后,TX210才会去唤醒处于休眠状态的主控处理器芯片。


另外,芯片支持一语直达功能,处理器只需要处理唤醒词之后的语音信号内容。

经过多重优化,TX210将工作功耗控制在2mW内,将语音活动检测(Voice Activity Detection,VAD)功耗降至100uW内。


image.png


该语音AI芯片的另一个特点是用极小的芯片面积支持丰富的接口和电源管理。


TX210的WLCSP封装面积仅有2.3 x 1.9mm2,适用于手机,蓝牙耳机等对体积要求苛刻的应用场景;同时TX210集成了LDO/ADC/BANDGAP/PGA等模拟器件,支持32K crystal输入,极大降低了用户的使用成本。


除此之外,在降噪方面,TX210也做了进一步优化,单麦基于深度学习进行降噪,双麦则是将传统算法与深度学习相结合,在典型信噪比下,TX210的唤醒识别率达95%,误识别率小于24小时一次。


据介绍,在TX210正式上市前,清微智能已与一些大型的互联网公司、智能手机及家电厂商建立了合作关系。


而这只是清微智能基于CGRA架构芯片的开始,他们的视觉芯片预计将在今年12月量产。

王博告诉智东西,目前他们规划CGRA架构18个月一迭代,下一代架构有望将算力再提高5-10倍。随着Thinker团队持续迭代更新CGRA架构,未来其语音芯片和视觉芯片的算力和能效比都将进一步提升。


在算法方面,清微智能在在算法压缩,量化以及硬件友好化设计方面有长期的积累,并与中科院、清华大学、乔治理工大学等开展了深入合作。


清微智能还研发了一套CGRA软件开发平台,这个平台兼容TensorFlow、Caffe等主流AI框架,可自动完成转换、解析、编译、生成等过程。他们自己的编译平台,允许用户从其它框架无缝迁移清微智能的芯片。


image.png


清微智能选择先切入终端AI芯片市场,这与当下的大环境不无关联。


去年,智能终端产品呈井喷式发展,智能音箱在2018年第四季度的出货量增长了95%。日前,工信部电子科技委副主任莫玮曾表示:“中国已成为全球最大的智能终端生产和消费国。”


但业界普遍认为,终端智能的渗透率尚不足1%。这意味着,智能终端市场规模远未达到预期,也意味着终端AI芯片市场的巨大潜力。


基于CGRA架构研发芯片的不止清微智能一家,美国创企Wave Computing采用这一架构的第二代DPU芯片预计将在明年面世,是一款7nm云端AI芯片。


至于清微智能是否有进军云端AI芯片的计划,王博表示,Thinker团队之前曾做出过成功的云端芯片,考虑到公司规模和投入阶段问题,他们想先在端侧验证架构的表现是出色的,等下一阶段有了足够积累,再去做云端芯片。

创新架构是AI芯片发展的关键


目前AI芯片产业化还在起步阶段,从算法到算力,能耗比刚刚能满足用户基础的需求。

由于AI计算需要很大算力,但传统的冯·诺依曼架构在计算密集型任务方面遇到了瓶颈,芯片设计底层架构的创新成为未来持续发展关键,王博认为,这也是很多AI创业公司集中出现的原因,大家都在同一起跑线上。


即便采用同一类架构,如CGRA,设计思路在本质上不会有太多差别,但每个处理元素(PE,Processing Element)中怎么设计、让它实现怎样的功能、处理元素之间怎样连接更高效……这些细节的设计与创新会决定各家芯片的差异。


除了架构创新,工艺、近阈值的技术等方法的进化也很重要,他们能在先进架构的基础上进一步提升芯片的性能。


王博也谈到,做芯片的本质上还是要独立流片以及建立一个完整的生态系统,而不是把各种功能的IP堆在一起就行。做好芯片的前提,是要拥有大量的芯片行业积累。


芯片还需面临越来越多的场景去定义创新,才能将前期费用分摊下去,才能盈利,如果没有几千万的场景去支撑,做芯片的意义就不存在了。


对于终端智能而言,上传云端的稳定性、延时、隐私、部署成本等问题仍亟待解决,即将出现的5G将使得更多设备能够联网互通,使得这些设备对终端智能的要求更加明确和丰富。

结语:终端AI芯片落地新战在即


从清微智能身上,我们看到更加新颖的一种芯片团队组合,他们不仅拥有来自学术大牛带队研发的前沿创新架构,还拥有产业经验丰富的工程师们。两强结合之下,清微智能既拥有高性能+极低功耗的芯片,又能快速推进产品完成变现。


近一两年,一批新玩家涌入终端AI芯片市场,但撇除那些为了实现垂直化整合或优化自身整体方案的AI算法公司、设备供应商等跨界玩家,市场机会逐渐聚拢在少数拥有创新架构的玩家身上。


终端AI芯片的落地之战才刚刚开始,技术路径、覆盖场景、落地速度、生态扩张等因素都有可能将这些玩家拉开差距,市场将检验出谁是能打持久战的企业。


关键字:AI  低功耗 引用地址:清微智能全球首款可重构超低功耗语音AI芯片开始量产

上一篇:STRATASYS在华推出F120™ 3D打印机
下一篇:感受工业4.0精益生产 全面展示十大工艺

推荐阅读最新更新时间:2024-11-07 11:47

日本本田汽车将采用中国人工智能技术研发智能汽车
  日前,日本汽车公司本田与中国 人工智能 公司商汤科技联合宣布:两家公司签订长期合作协议,深耕自动驾驶技术。双方将基于本田的车辆控制技术系统,融合商汤科技领先的视觉算法和开发平台,共同发力适合乘用车场景的L4级自动驾驶方案。此外,本田未来还将与商汤科技在机器人方面展开合作。下面就随汽车电子小编一起来了解一下相关内容吧。   据雷锋网了解,商汤科技与本田合作研发的自动驾驶技术解决方案主要针对乘用车市场场景,基于可靠的视觉技术而非高精地图,可以覆盖更广场景的区域。即便车辆行驶至无精细采集的高精度地图覆盖的区域,车辆自动驾驶功能依然可以使用。这套自动驾驶技术解决方案在乘用车市场的场景通用性和传感器成本上有很大优势。   商汤日本公司
[汽车电子]
ADI公司携手ARM共同提升物联网连接器件的安全性和能效
北京2016年10月27日电 /美通社/ -- Analog Devices, Inc. (ADI),近日宣布与 ARM 携手合作,共同打造一系列超低功耗微控制器 (MCU),以实现安全性和能效更高的物联网 (IoT) 器件。ADI 公司将其创新的超低功耗混合信号技术结合采用 ARM TrustZone 技术 的新型 ARM Cortex -M33 处理器,旨在解决功率受限的物联网应用中不断增长的数据安全需求。随着世界的联系变得越来越紧密,确保每个节点的安全性是促进物联网应用发展的关键。 我们很高兴与 ARM 公司展开合作,共同致力于提供适用的超低功耗 MCU,以便在节点本地实现更复杂的算法和更高级的智能。 ADI 物联网平台
[物联网]
基于STM8S的Atomthreads低功耗的深度思考
Atomthreads像众多操作系统一样,在没有任务调度是会调用idle。(by cpuwolf) static void atomIdleThread (uint32_t param) { /* Compiler warning */ param = param; /* Loop forever */ while (1) { /** \todo Provide user idle hooks*/ } } atomthreads中atomIdleThread()是以线程的形式存在,也就是最低优先级线程。作者默认没有填写这个函数。 uint8_t
[单片机]
基于STM8S的Atomthreads<font color='red'>低功耗</font>的深度思考
字节跳动副总裁杨震原:我们将在AI芯片领域寻求突破
“中兴禁运”事件敲响了核心技术的警钟。 4月24日,北京字节跳动科技有限公司(今日头条的母公司)副总裁杨震原向36氪透露,将在芯片领域有所行动。 杨震原向36氪表示,“字节跳动拥有全球数量最大的用户上传视频需要分析处理,有大量的芯片采购和应用。目前也在芯片相关领域积极寻求突破。” 字节跳动的这一表态,也源自美国商务部出台的禁运政策对中兴带来的实质影响。 美国商务部宣布,对中兴通讯采取出口管制措施,并禁止美国公司在今后七年向中兴出售任何电子技术或通讯元件。 中兴目前三大主营业务基站、光通信及手机的核心零部件都要依赖美国进口。路透社估计,中兴有25%-30%的零部件来自美国,最为核心的零部件都依赖于美国供应商。 对此,字节跳动副总裁
[嵌入式]
安防盯上人工智能,擦出不一样的火花
从互联网下半场的硝烟弥漫中就可以看出,任何行业错过“人工智能”的班车一定会被淘汰,特别是传统行业更需尽快“上车”。除了耳熟能详的医疗、金融、O2O之外,“安防”也开始盯上人工智能,简单的“刷脸”已不再新鲜,今后的监视器不再需要人工看才是真的“智能”! 用机器的智能解放人工 人工智能的市场有多大无需赘言:艾瑞咨询预计,2020年全球人工智能市场规模将达到1190亿元,年复合增速约19.7%;同期中国人工智能市场规模将达91亿元,年复合增速超50%。安防的市场同样不容小觑,特别是随着智慧城市、物联网、平安城市等兴起,安防智能化成为城市发展的重头戏。 那么,安防x人工智能将会碰撞什么火花? 提起安防,首先会想起摄像头,接着会想到
[安防电子]
创新奇智姜伟:想客户所未想 才能切实用AI为客户赋能
自2017年人工智能技术快速发展,推进技术落地逐渐成为业内的共识。在这样的背景下,AI技术赋能行业应用端的绝佳窗口期随之到来,在2018年春天,创新奇智应运而生。 “当时我已经在澳洲过着晒太阳和钓鱼的生活了,但是接到徐辉给我打的电话后,我当即就意识到这是一个不容错过的机会,因此毫不犹豫得加入了。”在谈到选择创新奇智的原因时,创新奇智副总裁姜伟笑着解释说。 图 | 创新奇智副总裁 姜伟 诚如姜伟对领航人徐辉的信任与看重。脱胎于创新工场人工智能工程院,成立不到一年间,天使轮融资1亿多,A和A+轮融资超4亿元,创新奇智声名远扬。与此同时,这家“年纪轻轻”却成绩斐然的公司也愈发让众人心生疑惑:它的特别之处到底在哪里? 关注人才培育,打
[机器人]
迎接下一个十年 谢清江:AI/5G技术不可或缺
人工智慧(AI)与5G为未来十年的两大关键技术。下一个十年将是物联网时代,联网装置彼此之间除了要能互相沟通,还须提供更智慧化的判断与讯息给使用者,而要落实有效率的联网以及智慧分析功能,人工智慧与5G两大技术,将是未来十年至关重要的关键要素。 联发科副董事长暨总经理谢清江表示,人工智慧经过几十年发展,近几年开始突飞猛进,真正落地于人的日常生活,尤其在2016年,人工智慧机器能力已与人类相当。例如,今年三月AlphaGo打败世界棋王,此举代表人工智慧已发展到一定程度,并可发展至下一代产品之中。 谢清江进一步指出,人工智慧可分成演算法、硬体与资料库三部分,而这几个层面皆与半导体晶片息息相关,故人工智慧这项技术并非只有联发科
[网络通信]
完美的电池,将来自AI
谁也没有想到,AI会成为2024年诺贝尔奖的最大赢家,物理奖和化学奖两大奖项都与人工智能研究有关。 很多人第一次知道,机器学习的模型是基于物理方程的,而人工智能被用来研究蛋白质的结构。 不知不觉,我们已经步入AI时代。 随着电动汽车在世界各地越来越受欢迎,人们对电池安全性的担忧比以往任何时候都更加紧迫。当AI与电池结合起来,又会有怎样的图景? 预防热失控 动力电池安全性的一个关键问题是热失控,它是由不可预测的温度飙升引发的,可能导致锂离子电池发生灾难性火灾甚至爆炸。 亚利桑那大学(the University of Arizona)的新研究提供了一种新颖的解决方案来解决这个问题,将机器学习与热传
[汽车电子]
完美的电池,将来自<font color='red'>AI</font>?
小广播
最新物联网文章
换一换 更多 相关热搜器件
随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved