借助周易平台,Arm中国打通AIoT落地的最后一公里

2019-05-20来源: EEWORLD关键字:Arm  AIoT  周易

在2018年第五届世界互联网大会上,Arm中国全新人工智能平台“周易”首次公开亮相,并获得第五届世界互联网大会“世界互联网领先科技成果”。


半年时间过去,客户对周易平台有了进一步了解,无论IP还是软件框架都获得了厂商的认可。在此前提下,近日,Arm中国生态发展副总裁、OPEN AI LAB创始人兼CEO金勇斌及Arm中国产品经理高锦炜解读了周易平台的更多细节。


金勇斌介绍道,周易平台是Arm中国自主开发的平台,包括人工智能处理器AIPU以及AIPU SDK,以及和中国生态合作伙伴共同开发的Tengine人工智能软件框架,适配Arm CPU、Mali GPU和第三方AI处理单元,实现人工智能算力优化。“由于是Arm中国自主开发的产品,可以说更接地气,也更加贴近客户的需求,全力解决AIoT时代最后一公里的问题。”金勇斌说道。


image.png

Tengine和Caffe相比,要快3-5倍


Tengine框架如何解决最后一公里问题


金勇斌表示,随着智能手机普及度越来越高,增长趋于缓慢。软银CEO孙正义所说,2035年,全球联网设备数量将超万亿。对于如此数量庞大的市场来说,仅凭手机是无法做到的。“这么多联网设备,对于人来说不可能随时随地去查看这些设备,因此IoT势必要结合AI决策(AIoT),减少人机互动,才有足够精力支持万亿设备的互联。”金勇斌说道。


周易平台正是在这一大背景下,为了满足IoT市场的AI需求而生。实际上,2018年初,Arm全球就公布了Project Trillium项目,这是Arm全方位的人工智能项目,而周易平台的产品正是在Project Trillium下做出的针对中国市场的有力补充。金勇斌表示:“无论是Trillium还是TensorFlow,并没有解决好最后一公里问题,客户用这些框架很难做到对所有芯片的支持,实际项目落地会带来一些困难。”


image.png

Project Trillium架构


image.png

周易平台架构


和Project Trillium相比,周易平台增加的Tengine框架可有效解决AL算法与Library之间的鸿沟


周易Tengine软件框架内包含不同的library,包括Arm全球library,OPEN AI LAB library等,通过这些library,可以对不同算力做分布和调度,上层则无缝支持不同的主流算法,比如Caffe、PyTorch等。


金勇斌说道,周易平台的Tengine框架具有适用性、兼容性、安全性等特点。具体来说,Tengine支持Arm或其他第三方IP,用户可以直接基于现有的Arm芯片做AI算法的开发,并且可以随着处理器的升级而进行无缝迁移,同时周易也集成或准备集成TrustZone及PSA安全架构,从而形成基于硬件、软件和IP一体化的安全方案。


让AI落地方案更便宜、更便捷、更易用,正是整个Tengine方案的初衷。金勇斌认为,对于AI生态链来说,需要在每个层级上进行交叉合作,甚至有点竞争,这样才能够降低成本,提高普及率和渗透率。


平台化产品赋能全产业链


“周易Tengine赋能的是全产业链。”金勇斌强调道。


具体来说,对于芯片公司来讲,由于Tengine适用于任何Arm IP,因此可以大幅提升目前已售产品的算力,同时还可以延长芯片的生命周期,同时对于那些软件实力不强的芯片公司来说,也不用开发专属自己的一套框架。而对于算法公司来讲,Tengine框架不需要太多考虑底层芯片就可以通过算法显著提升性能,同时一套算法也可以支持多个平台。


通过Tengine平台,让算法开发和迁移变得更加容易,可以更多提取底层芯片的AI性能,这无论对于OEM厂商还是系统集成商来说,都提供了更多的选择,降低了开发门槛,从而显著降低开发及工程实施成本,加速AIoT市场的普及。可迁移对于嵌入式系统来说尤其重要,嵌入式系统为了实现更大规模的成本下降,一直有平台迁移的需求,Tengine可以保证在基于Arm的架构下无缝迁移。


“对于AIoT行业的普及问题,在上游把一个根本的问题解决了之后,下游的普及速度会非常快。目前基于Tengine的应用框架,我们知道的场景应用就已经有好几百个,包括人脸识别、机器人、ADAS等。随着芯片的AI能力越来越强,应用场景的渗透率和范围会变得越来越大。”金勇斌说道。


金勇斌举例道,某家人脸布控系统公司初期的一套开发算上流量、云服务器等成本,单个终端的成本是20000块,而采用周易人工智能平台进行边缘处理后,总体综合成本不足2000元,节省了10倍以上。


金勇斌表示,AIoT市场将是多样化的,相比手机产业链来说,由于和场景密切相关,因此无论芯片公司还是应用,种类都会更多。多样化的局面下,越是底层的东西,考虑到开发成本、维护成本等,就越需要做成平台式的产品。


除了周易平台,Arm在2016年成立的OPEN AI LAB,也是为了推动Arm嵌入式智能机器的产业发展,为智能机器应用场景构建嵌入式SoC基础计算框架,并整合应用场景服务接口。致力于推动芯片、硬件、算法软件整个产业链的深度协作,实现有计算的地方就有人工智能。随着客户的商业化需求增加,OPEN AI LAB也转成了商业公司,从商业交付角度解决最后一公里问题,目前该公司已服务了超过100家客户。


image.png

OPEN AI LAB的业务范围


周易AIPU架构浅析


谈完了Tengine软件框架,高锦炜详细介绍了周易人工智能处理引擎AIPU的特点。目前该款IP已获得了近十家合作伙伴授权。


一:周易AIPU拥有一套完整的人工智能和神经网络优化指令集,同时保证相前兼容,以保护软件和生态系统的投入。高锦炜说道,目前AI界和以前的数据算法大多使用DSP来做NN处理,虽然硬件设计类似,但DSP并没有形成一个良好的生态系统。“DSP主要有两大缺陷,一个是不同的DSP架构是不兼容的,这势必会分散资源和开发的投入,第二则是DSP的开发没有软件生态维护的概念,即使是同一个厂家,第一代DSP的指令集或者软件程序,也无法使用在第二代DSP上,这对软件开发来说是灾难性的。”


二:周易AIPU具有灵活性和高效率的最佳平衡,尤其是在工艺进展缓慢的今天,架构的创新会带来更高的能效比,这就给了周易AIPU最佳的时间点。具体来说,周易AIPU包含粗粒度计算——目前主要的卷积操作,以及支持软件可编程的中、细粒度计算,其中中粒度采用了矢量处理流水线,可处理大位宽数据,细粒度则是一个标量流水线。


三:可支持指令集的扩展,以满足客户的定制化及差异化需求。所以今天你看,这个架构本身它就是一个DSA了,CPU处理通用的操作系统那个东西,这是处理图形的东西,这是处理AI的东西,还有第三方的一些DSP,它可能还有一些处理它专用的处理单元。但由于这些东西碎片化,或者叫它跟应用绑定性比较多,所以每家的DSP可能做得都不太一样。这时候Arm中国希望提供一个更公共的平台,而不是给每家做一个设计服务。这些人我们愿意说每家可能基于这方面发挥它的差异性,能体现它SoC在最终用户体验的一些差异性。


四:在IP对应的软件工具链上,Arm中国也提供了整套工具:从底层的IP开发到上层的软件开发,其中包括了编译器、性能优化库、仿真器和算法示例等全方位支持。


金勇斌表示,AI的演进一定是逐步迭代的过程,这和任何一项技术的演进步骤都一样。比如最终AI实现的是人脸识别,在此基础上诞生了诸如表情识别、发行识别等新的需求,总是会不断提取共性需求,并将其硬件固化升级。算法同样如此,10年前开发APP的要求很高,但随着提取共性的框架越来越高效,开发难度也越来越降低。


正因为迭代是逐步进行的,这就要求所有的开发尽量都向上兼容,同时也需要平台化以支持更多供应商的方案,这样才可以加速整体的迭代过程与效果,充分打通最后一公里。在这一方面,周易平台秉承了Arm一贯以来的做法,也会不断获得市场的认可。

关键字:Arm  AIoT  周易 编辑:冀凯 引用地址:http://news.eeworld.com.cn/qrs/ic462300.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:高云半导体引入成熟的Arm®嵌入式生态系统到其FPGA产品中
下一篇:产教融合共创“中国芯” “高云杯”IC设计大赛开幕

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

ARM历程四-LCD
    离上次真正写历程已经有10天的时间了。国庆嘛,自己给自己放了几天假——耍耍游戏下下棋什么的。    其实这次写触屏的驱动和对ARM中中断的过程的了解也花了不少时间和脑力。我就简单分享一下CPU执行某个中断的条件吧,也是我自己的理解,如果有错还请大家指正(以IRQ中断为例吧):      在程序状态寄存器中(CPSR寄存器)i 位为IRQ中断禁止位,若这一位置1那么所有的IRQ中断都不会被CPU响应,如果这一位被清0,CPU也不一定会响应某一个或某些中断(就像是一个总开关)。所以,要想让CPU执行IRQ中断,CPRS中的i位必须要清0!  在2440
发表于 2019-11-16
ARM历程九-ARM中断
    离上次真正写历程已经有10天的时间了。国庆嘛,自己给自己放了几天假——耍耍游戏下下棋什么的。    其实这次写触屏的驱动和对ARM中中断的过程的了解也花了不少时间和脑力。我就简单分享一下CPU执行某个中断的条件吧,也是我自己的理解,如果有错还请大家指正(以IRQ中断为例吧):      在程序状态寄存器中(CPSR寄存器)i 位为IRQ中断禁止位,若这一位置1那么所有的IRQ中断都不会被CPU响应,如果这一位被清0,CPU也不一定会响应某一个或某些中断(就像是一个总开关)。所以,要想让CPU执行IRQ中断,CPRS中的i位必须要清0!  在2440
发表于 2019-11-16
ARM历程十——毕业设计(钟表)
#include "S3C2440addr.h"#include "math.h"#define pi 3.141593U16 SEC, MIN, HOUR, TmpSEC_10, TmpMIN_10, TmpHOUR_10,TmpSEC_1,TmpMIN_1,TmpHOUR_1;U16 SEC_x, SEC_y, MIN_x, MIN_y, HOUR_x, HOUR_y, OldMIN=10000;U16 PandColor_big[30][30];U16 PandColor_sml[30][30];extern U16 Flag;extern U16 fz;extern const uns
发表于 2019-11-16
ARM历程十一—(拨打电话)
字符显示程序,拨打电话程序:(程序有待完善)void Displaytxt(int x0, int y0, int who, U16 color )// 显示数字(16*32){     U16 txt = 0;     U16 l = 0, h = 0, x = 0, y = 0, z = 0;                      for ( h = 0; h < 32; h++ )     {&nbs
发表于 2019-11-16
ARM字节格式
发表于 2019-11-16
ARM字节格式
ARM 中断向量
发表于 2019-11-16
ARM 中断向量
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2019 EEWORLD.com.cn, Inc. All rights reserved