各类处理器大显身手人工智能进驻物联网终端-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

　　人工智能终端应用的可能性无限，举凡智能型手机、汽车、照明等，都有机会成为所谓的边缘运算装置。但在过去，运算处理器是在数据中心有较为明显的需求。目前边缘运算此一产业走向的大逆转，已可从各芯片供货商，如GPU、CPU等，以及硅智财(IP)授权商纷纷针对人工智能展开布局，推出各自处理器缩小化的解决方案，明显可见一斑。下面就随嵌入式小编一起来了解一下相关内容吧。

　　随着人工智能的发展，有越来越多应用产品开始在终端上进行实时运算，也就是所谓的边缘运算。不过，目前的处理器核心对许多终端装置来说，功耗仍嫌偏高。

　　AIoT浪潮兴起小型处理器核心满足边缘运算需求

　　索思未来(Socionext)战略销售组销售部销售项目总监张育豪(图1)表示，目前市场上主流的CPU或GPU核心规模很大，虽然运算效能很强，但功耗也高，而且不易针对应用进行客制化设计。有鉴于此，Socionext采取用小型核心堆栈的设计架构，其好处在于从云到端都可以采用同样的处理器核心，且也较容易针对个别应用进行客制化，例如将CPU核心跟图像处理核心(VPU)整合在单芯片上。

　　张育豪观察，目前的人工智能应用大多与影像相关，但不管是CPU或GPU，在进行影像运算时，功耗/性能比都不尽理想。这是因为CPU跟GPU原本就不是为了处理影像而设计的芯片。 CPU的强项在于进行数据运算，而GPU则适合用来进行3D绘图处理。因此，用CPU或GPU来进行影像分析，其实效率不是太好。相较之下，专门为处理影像而设计的VPU，在图像处理的功耗/性能比方面，是远胜过CPU跟GPU的。

　　举例来说，用CPU来对4K影像进行处理跟分析，功耗预算大概是230瓦左右;若用GPU来进行，功耗更可达到400∼500瓦。但如果是用Socionext的解决方案，一颗核心的功耗只有5瓦左右，就算串联多颗核心，也会比CPU或GPU来得省电许多。因此，张育豪认为，在人工智能进驻各类终端装置的趋势下，如果是与影像分析有关的人工智能应用，VPU将有非常大的发展潜力。 Socionext本身拥有业界领先的VPU技术，更是目前市场上唯一已经有8K图像处理芯片的芯片业者。

　　不管是针对大规模数据中心，或是在各种终端装置上直接进行边缘运算，功耗都是非常关键的考虑。功耗越高，则系统的散热设计也越昂贵，不仅会增加终端装置的生产制造成本，也会增加系统拥有者的总体持有成本(TCO)。

　　以数据中心为例，冷却系统的电费是相当可观的，如果处理器能更省电，空调冷却的电费也可以随之降低。其他形形色色的终端装置也一样，当芯片的功耗太高时，就得采用更大的散热片，甚至用风扇来散热，这些都会造成产品的生产成本跟总体持有成本增加。

　　单一丛集配置更弹性 DynamIQ推升大小核效率

　　针对小型处理器需求的增加，安谋国际(ARM)日前在处理器架构上，也宣布了大幅度调整，也就是DynamIQ技术。 DynamIQ达成了上一代big.LITTLE架构在单一运算丛集上无法实现的大小核弹性配置，对异质运算及人工智能这类应用带来相当明显的效率提升。其将作为未来ARM Cortex-A系列处理器的基础，亦同时代表了业界在多核处理程序设计上的新纪元。

　　ARM行动通讯暨数字家庭市场资深营销经理林修平(图2)表示，DynamIQ可以说是ARM big. LITTLE的第二代硬件架构，其最主要的特点在于其可以在同一个丛集(Cluster)中同时摆放大小核，且电源(Power)与频率(Clock)都可以单独作管理。在第一代的大小核架构中，一个丛集只能摆放大核或小核，因此在执行转换任务时，必须经过快取(Cache)转换。但在DynamIQ中，由于所有任务都将能在同个丛集中运作，在任务切换上，便会相对迅速很多。

　　林修平指出，由于人工智能所需要的运算量很大，同时需要很多矩阵乘法，透过DynamIQ的架构，将能做1+3、1+7、2+2+4等设计配置。在过去的big. LITTLE架构中，由于一个丛集最多即是4核(大核(Big)4核，小核(LITTLE)4核)，是没有办法做到1+7的。 DynamIQ所带来的多元变化SoC设计配置，将能帮助应用达到CPU优化，进而让效能与功耗能更往上提升。

　　DynamIQ的频率可以单独管理，也将带来很大好处。第一代的大小核，在同一个丛集当中，频率是统一的，但DynamIQ可以让同一丛集中的不同核心，依据运算需求在不同的频率下运作。

　　此外，林修平也表示，DynamIQ还可连接外部的硬件加速器。以人工智能来说，不同应用会有不同的软硬件加速需求，例如加速器、DSP、CPU、GPU等，像是在高阶智能型手机上，可能会放置加速器，来使其表现度达到最好、功耗达到最低，不过这也会增加集成电路的成本。因此，若是比较大众化的产品，则可能会利用系统上现有的CPU、GPU，来满足人工智能的需要。

　　GPU模型推论效能升级边缘运算装置AI能力更强大

　　然而，随着各种边缘运算装置上所内建的人工智能(AI)能力变得更加强大，GPU模型的推论效能也必须随之提升。辉达(NVIDIA)旗下软件目前已可协助客户做8位与16位的神经网络运算优化，不仅让GPU模型的推论(Inference)更形完善，同时对硬件资源的需求也明显降低，只需要一小块电路板就能支持AI算法。

　　针对边缘运算日益渐增的需求，NVIDIA近期推出了新款开发板Jetson TX2，将整套人工智能系统缩小在一块电路板之上，为商用无人机、工业机械、智能型摄影设备等领域，提供进阶的导航、影像与语音识别功能。相较前一代产品Jetson TX1，Jetson TX2的效能提升了两倍，耗电量则不到7.5瓦，能源效率提升了两倍多。这让Jetson TX2可在终端装置上运行更大、更深的神经网络，进而开发出更高智能化的装置，并提升影像分类、导航以及语音识别等作业的精准度与反应速度。

　　NVIDIA技术营销经理苏家兴(图3)表示，对于训练好的模型，NVIDIA也提供Tense RT软件来协助客户做模型优化、缩小化，其支持整数8位与浮点数16位的运算。目前的主流是以32位的运算去做训练，该16位运算也就减少了一半，增加了一倍的效能，8位则增加了四倍的效能，因此在模型推论上能运作的更好。

　　AI算法日新月异 FPGA灵活特性优势显著

　　即便目前人工智能(AI)算法日新月异，对嵌入式处理器的灵活性带来许多挑战，这却也让以灵活弹性著称的现场可编程门阵列(FPGA)组件有了很大的发挥空间。

　　赛灵思ISM营销资深技术经理罗霖(图4)表示，由于人工智能目前还处于发展阶段，算法日新月异，目前还没有一个算法可以固定下来，这为特殊应用集成电路(ASIC)的设计带来很大挑战，因客户往往需要的是十分灵活的架构。

　　有鉴于此，赛灵思推出reVISION堆栈技术，其具备了可重组以及所有形式链接的特性，让开发者能充分运用堆栈技术，快速研发与部署升级方案，这样的特性对于开发未来需求的智能视觉系统是至关重要的的。不仅如此，该技术也使开发者在结合机器学习、计算机视觉、传感器融合与连接的应用时，能够获得显著优势。举例而言，相较于其他嵌入式GPU与传统SoC，reVISION将机器学习推论的每秒每瓦影像效能，提升了6倍、计算机视觉每秒每瓦每帧处理速度提升了42倍，而延迟却只有五分之一。

　　罗霖分析，相较于同等级GPU技术，FPGA在低延迟(Low Latency)的部分，本身就与传统的架构不同，传统架构是将收集到的数据送到DDR内存中进行缓存，处理器要再从DDR中取出数据进行运算，运算完成后再送回DDR。但FPGA则是采用像素流(Stream)的方式，直接可以到模拟进行运算，运算完成后，输出结果即可，由于省去了存取DDR的时间，因此可以延迟可以降到非常低。

　　从算法的层面来看，人工智能含有许多智能决策的部分，因此需要有很强的平行运算能力。这些算法进而对处理器结构产生了不同的需求，像是在神经网络中，卷积运算强调的是平行运算，适合在FPGA上运行，但在传感器融合的部分，则比较适合在CPU上运行，因其必须将硬件进行分割，再将不同的算法，放到处理器中。

　　罗霖指出，在脱机的神经网络训练部分，GPU的确是比较有优势的，由于其要求的浮点运算性能特别高，因此不少深度学习都是采用GPU，而赛灵思的立场是不会以FPGA去进攻这块市场，不过若是以在线的任务来看，FPGA还是很有优势的。目前边缘运算对嵌入式处理器的要求除了传感器的接口要够多，组件的I/O型态也十分多变，可能是高速率、中速率或低速率，这些处理器都要能支持，且在线处理的能力也相当关键。

　　苏家兴则表示，无论是软件还是硬件公司，都须要对训练好的深度学习模型进行优化，除了边缘设备会采用缩小化的模型，在服务器与数据中心端，也会有某些情境需要采用这些优化过的模型去做推论。举例而言，Facebook、百度在做语音识别的推论时，若能透过优化的模型让运作更快，势必能让消耗的功耗越少。

　　不过，并不是所有的应用都适合做前端边缘运算。以AlphaGo来看，其是以32台服务器在做运算，因AlphaGo运算量非常大，所以就不太可能进行边缘运算，因1台服务器与32台服务器运算的精准度，绝对是有差异的。若以语音识别来看，即便可以同时采用在线与脱机的方式进行，但精准度也势必会有落差。

　　苏家兴指出，应用开发商须尽快分辨出哪些运算任务适合采用边缘运算，哪些部分还是得留在服务器端执行。举例来说，当无人机飞到有些没有网络的地方，便必须运用边缘运算，设计出可承载范围内的推论。 NVIDIA相信，未来数据中心与边缘运算将会并存，但在瞄准的应用上必定会有所不同。

　　用DSP驱动CNN引擎边缘运算效率大增

　　除了GPU、CPU、FPGA，以DSP架构驱动的卷积神经网络(Convolutional Neural Network, CNN)引擎，在成本与功耗上也相当具优势。

　　全球DSP主要供货商CEVA认为，若要在嵌入式系统中实现CNN，DSP甚至能取代GPU和CPU，因CNN在本质上，就十分适合运用DSP。此外，CEVA也推出CDNN网络产生器，协助将训练完成的网络，配置到边缘运算装置中，同时为市场提供更形完善的低功耗嵌入式解决方案。

　　CEVA汽车市场部门总监Jeff VanWashenova(图5)表示，DSP能有效地达成CNN，是因为DSP的架构能够实现平行处理，且其为可充分运用的核心。相较GPU只能达到40∼50%的使用率，DSP可以达到90%以上的核心使用率。

　　Jeff VanWashenova表示，

　　随着人工智能将导入在手机中，

　　神经网络处理的功耗与效率，变

　　得更为重要。

　　VanWashenova进一步表示，与典型的混合式CPU/GPU的处理架构方案相比，建基于DSP架构的CNN引擎，能提供高达近三倍的性能。而且，DSP引擎除了所需功耗比GPU小30倍之外，所需的内存带宽，也只有约GPU的五分之一。 CNN算法，属于乘法和加法密集型(Multiply-accumulate, MAC)，因此本质上十分适合运用DSP。也就是说，若要在嵌入式系统中实现CNN，DSP不仅能够取代GPU和CPU，而且成本和功耗更低。

　　VanWashenova指出，当神经网络配置到现场进行「推断」时，CEVA拥有的优势便可充分发挥，这些优势不仅展现在处理方面，还在于可采用现有的网络，并可在嵌入式DSP上运行。

　　VanWashenova分析，在神经网络的训练过程中，是在大型运算平台上完成，并具有32位浮点精度。然而，训练完成的网络，对于低功耗嵌入式解决方案来说通常太大，因此可运用CEVA的CDNN网络产生器，将网络转换成16位定点，缩小并优化网络规模。

　　这也是目前CEVA客户经常面临的问题，就是如何把一些在GPU这样大型且昂贵的运算器平台上所开发的网络，进行实际配置。因为在大规模部署的产品中，功率、尺寸和效能都有所限制，与大型运算平台并不相同。

　　对AI而言，要求最严苛的领先市场就是汽车产业。为了确保汽车应用的可靠性和性能，必须降低延迟，而且精度是至关重要的。除此之外，汽车正在使用的摄影相机功能，从两百万像素(MP)到八百万像素，帧率通常在30fps或更高。且往往是多个摄影相机一起使用，并有多个并行处理同时地进行。

　　VanWashenova指出，CEVA目前正与许多领先的一级汽车供货商和原始设备制造商合作，以确保透过硬件和软件两方面，皆能支持神经网络和拓朴结构。在硬件方面，CEVA提供视觉和神经网络处理器和加速器(CEVA-XM、CDNN HWA)，而软件方面则提供神经网络软件框架(CDNN2)。

　　人工智能这块大饼究竟有多大，目前还无从确认，但从各大芯片供货商在边缘运算的充分布局看来，可以确定的是，目前边缘装置的开发进程，已经有了十分稳固的芯片处理基础。

以上是关于嵌入式中-各类处理器大显身手人工智能进驻物联网终端的相关介绍，如果想要了解更多相关信息，请多多关注eeworld，eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。

关键字：处理器神经网络引用地址：各类处理器大显身手人工智能进驻物联网终端

上一篇：合肥打造“中国IC之都”，纳入国家集成电路规划布局
下一篇：英特尔芯片整合倒数计时：第三方芯片厂恐受冲击

推荐阅读最新更新时间：2024-05-03 01:15

基于OMAP3处理器平台的MID解决方案

移动因特网设备(MID)是一种集成了无线通信与计算功能的新兴产品，旨在提供比笔记本电脑更高的便携性和比手机更大的的显示屏。作为MID制造厂家的重要解决方案供应商，德州仪器(TI)提供集成了ARM Cortex-A8处理器、影像、视频及图形加速功能的单芯片OMAP3平台，可充分满足以最低功耗实现最高性能的要求。与Intel的双芯片Atom解决方案相比，采用移动工艺设计的OMAP3处理器使制造商能够构建尺寸更小、重量更轻、价格与功耗更低的高可扩展性产品，从而全面满足从智能电话到MID的各种产品的需求。 MID的特性和分类 MID的主要特性和功能包括：采用触摸技术实现直观易用的用户界面；功能齐备的浏览器可实现无与伦比的因特网体验；集成

[单片机]

基于OMAP3<font color='red'>处理器</font>平台的MID解决方案

华为麦芒7入网搭载麒麟710处理器？

近日华为旗下一款型号为SNE-AL00的华为新机入网，从背面标志性的麦芒logo看，毫无疑问，它就是麦芒7，工信部官网也公布了它的相关硬件参数。麦芒7它用上了一块分辨率为2340X1080分辨率的6.3英寸TFT屏幕，搭载八核主频为2.2GHz的处理器，主摄像头为20MP+2MP的组合，副摄像头为24MP+2MP组合，辅以6+64GB的存储，不支持存储卡扩展，预装Android8.1的操作系统，内置3400毫安时电池，支持全网通，机身只提供黑色一种颜色。从上一代麦芒6用上麒麟659处理器看，麦芒7不可能用上麒麟960处理器，根据工信部官网提供的处理器参数“八核主频为2.2GHz”推测麦芒7最有可能用的是华为刚发布不

[手机便携]

移动机器人避障常用传感器及神经网络算法

移动机器人是机器人的重要研究领域，人们很早就开始移动机器人的研究。世界上第一台真正意义上的移动机器人是斯坦福研究院（SRI）的人工智能于1966年到1972年研制的，名叫Shakey，它装备了电视摄像机、三角测距仪、碰撞、驱动以及，并通过无线通讯系统由二台控制，可以进行简单的自主导航。Shakey的研制过程中还诞生了两种经典的导航算法：A*算法(the A* search algorithm)和可视图法(the visibility graph method）。虽然Shakey只能解决简单的感知、运动规划和控制问题，但它却是当时将应用于机器人的最为成功的研究平台，它证实了许多通常属于人工智能(Arificial ligen

[机器人]

Intel发布22nm多核架构处理器Knights Corner

在近日举办的国际超级计算机会议上（ International Supercomputing Conference）， Intel公司向外公布了其首款超多核心商用芯片产品“ Knights Corner”，这款产品借用了Larrabee架构和万亿级计算研究计划（ Tera-scale Computing Research Program）的技术，可以将50个以上的处理器核心集成到一块单芯片中去，产品主要面向高性能计算市场。据Intel表示，这款产品将使用22nm制程技术制作。 Intel公司副总裁，负责数据中心集团的总经理Kirk Skaugen表示：“Intel的至强处理器，以及我们这次隆重公布的Intel

[嵌入式]

疑OPPO R11现身跑分网站首发骁龙660？

近日一款型号为OPPO R6051的新机现身跑分网站GFXBench的数据库中。信息显示，该机采用5.5英寸1080p屏幕，前置2000万+后置1600万像素摄像头，运行最新的Android 7.1.1系统。　　同时，该机还搭载主频为2.2GHz高通八核处理器，辅以Adreno 510 GPU，估计其为传闻已久的骁龙660处理器，而这款新机也因此推测为即将登场的OPPO新旗舰R11。疑OPPO R11现身GFXBench 　　目前，OPPO R11已获得无线电发射型号核准，并具备全网通功能。此前传闻OPPO R11会有5.5英寸和6英寸两种不同尺寸，其他主要配置则会保持相同，前后均为双摄设计。然而，由于目前骁龙660处理器还

[手机便携]

展讯李力游：64位处理器或为2014年高端产品标志

10月30日，展讯通信有限公司董事长李力游称，64位处理器可能是明年高端产品的标志。　　2013北京微电子国际研讨会于2013年10月30-31日在北京京仪大酒店二层多功能厅举行，本次大会的主题是“智能改变生活”。　　展讯通信有限公司董事长李力游发表题为《企业变革中的移动互联网时代》的演讲。他称，明年将会是LTE爆发年，64位处理器可能是明年高端产品的标志，而展讯与竞争者的难点在于执行力。　　另外，李力游还称，在3-5年内展讯要成为全球最大半导体设计公司。

[手机便携]

东芝量产穿戴式装置应用ApP LiteTM处理器系列产品

东芝半导体与储存产品公司7月初宣布开始量产应用处理器ApP Lite系列IC TZ1201XBG，将物联网及穿戴式装置所需的功能和接口整合单一包装。此IC搭载高效能绘图专用引擎及高频率32Bit ARM Cortex-M4F RISC微处理器，可执行标准频率模式96MHz或超频模式120MHz。若启用内建之电力管理功能，在正常运作模式下之电流值能降低至70uA/MHz；用户可以控制执行时其应用程序时的电力模式，以采用350mAh之电池为例，时钟图案之显示时间能持续1个月之久，若不需显示时钟的秒针，其显示时间能长达两个多月。整合了2.2MB高速SRAM，LCD控制器以及2D绘图专用引擎。用户能以支持HVGA(480x320)

[半导体设计/制造]

采用数字信号处理器TMS320C6201构成的视频跟踪警戒装置

摘要：介绍了一种以高速数字信号处理器TMS320C6201为核心器件构成的视频跟踪警戒装置。该视频跟踪警戒装置，即可自成一个小系统，独立进行工作；也可作为一个子系统，装在其它光电测量跟踪系统中工作。关键词：电视跟踪匹配跟踪图像处理数字信号处理器在光电测量跟踪系统的实际应用中，对其视频器量跟踪部分，提出了越来越高的要求。例如，有越来越多的应用场合，要求光电测量跟踪系统对更大区域的视频图像具有实时匹配跟踪（相关跟踪）的功能。在匹配跟踪（相关跟踪）过程中，如果需要匹配处理的图像区域较大，则运算量非常可观。在视频跟踪当中，为了能够在有限的时间（如20毫秒时间内）实现大量的运算处理

[应用]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！

各类处理器大显身手 人工智能进驻物联网终端

各类处理器大显身手人工智能进驻物联网终端