近日,在Arm Tech Day 2019上,Arm杰出工程师及机器学习事业部技术总监Ian Bratt介绍了Arm在机器学习及人工智能领域目前所做的工作和进展,Arm针对人工智能领域的Project Trillium项目,这是一套包括新的高度可扩展处理器的Arm IP组合,包括全新的ML处理器IP以及OD视觉处理器,以及一系列配套的软件体系。
Ian给出第一代机器学习处理器指标,在7nm下效率为3 TOP/W,吞吐量为4.6 TOP/s,有针对激活和权重的硬件压缩,利用Cortex-M技术支持安卓NN和Arm NN,预计2018年中期交付客户。
Ian表示,“机器学习和人工智能是颠覆性的技术,应用场景多种多样,因此对Arm而言,不应该只是出现在某一款处理器上,而是所有处理器都需要有机器学习功能。”
Ian强调:“尽管目前所有机器学习工作负载都可以通过Cortex-A76进行实现,但如果想在机器学习方面更进一步更高密度,可能需要机器学习处理器,这也是为何Arm要推出机器学习专用IP的原因。”
谈到Project Trillium开放平台,Arm强调首先要从软件层进行优化,之后再从处理器端进行有效部署。
Arm和合作伙伴在整个人工智能领域布局
未来Arm的机器学习及人工智能生态系统将主要在边缘计算端进行,在整个框架中,Arm提供了最全面的支持,包括CPU、GPU、机器学习IP、目标检测IP以及合作伙伴的IP,而在软件层方面,Arm则提供神经单元网络库,而在最上端的生态系统中,支持Android NN,TensorFlow,Caffe等开放环境。
Ian特别强调机器学习正在向边缘发展,并给出了三大原因,包括物理学、经济学和土地定律。具体而言,机器学习要求越来越低的延迟,但大量数据来不及从边缘传递至云端,而在成本方面,边缘计算在能耗还有带宽、安全隐私等方面都有优势,此外越来越多的云计算则需要大量的数据中心建设土地,因此如何有效的进行边缘计算势在必行。
全新的机器学习处理器IP
Ian认为,机器学习是一种全新的技术,因此Arm也必须从零开始设计全新的处理器架构,从而实现最高效率最高吞吐量且灵活的机器学习负载处理。
Arm的首款机器学习处理IP将率先针对移动市场应用,但“机器学习处理器具有高度可伸缩性,未来可延伸至服务器及IOT各领域。”Ian强调。
“机器学习处理器架构要有三大特征,高效卷积,高效数据移动和可编程性灵活性。”Ian总结道。
Arm的机器学习处理器具有16个计算引擎,每个引擎中包括SRAM、MAC引擎、网络控制单元、DMA等多部分组成。
在有效卷积方面,Arm借鉴了Cortex-M一些设计经验,当进行卷积计算时MAC引擎在SRAM中读取解压缩激活和压缩权重,当一个计算引擎MAC读取一个激活时候,实际上结果通过广播网络向其他15个计算引擎广播,因此是16个引擎共用一个SRAM值。同时解压缩权重被存在权重解码器中,减少对SRAM的读取操作,从而降低能耗。
在高效数据移动方面,机器学习处理实际能耗和DDR能耗基本接近,所以在这方面,Arm借鉴了Mali-GPU,针对激活和权重,采用硬件压缩方式,减少系统功耗。在编译器方面,Arm充分利用了本机SRAM,降低对ddr访问。
“当运行GoogleNet V3时,动态激活值变化,这时候激活块的值分成两个类型,一个是激活快中有大量0,另外一个没有0有重复的值,我们硬件激活压缩技术很好的利用了动态值的特点,实现了google Ne V3 3.3倍压缩比的无损压缩。”Ian解释道。
在可编程性方面,如果要驾驭不断发展的机器学习领域,一定要让机器学习具有可编程灵活性,PLE(Programmable layer engine)可编程层引擎很好利用了Cortex-M矢量指令和神经网络NN专用指令,可适应未来神经网络变化。
PLE引擎中有矢量引擎,可处理神经网络工作负载,而矢量注册表文件,可存储固件和SRAM,和主SRAM连接。卷积处理结果会被直接写进矢量注册表中,通过Cortex-M发出指令,让矢量引擎直接在主SRAM中写结果。
第二代OD处理器
Ian表示,第一代OD处理器已用在海康威视和英国的Hive公司。
第二代OD处理器,可以实时检测60fps 全高清影像,对象尺寸只需大于50*60像素,支持每帧无限数量的目标检测。
Ian强调,通过OD处理器和其他处理器融合,可打造完整的解决方案。前期可用OD进行每一帧的数据流过滤,检测到感兴趣的内容或区域之后传递给其他处理器进行处理,从而提高整体效率。
Project Trillium软件部分
Ian表示,在安卓方面,Arm已经和谷歌合作,针对Cortex-A进行Android NN API接口优化,此外,Mali-GPU或机器学习处理器可直接通过Android NN HAL和Arm NN进行部署。
而在Linux方面,对于arm同等重要,Arm提供NNSDK,直接接入包括合作方在内的各种IP。
“由于我们在CPU和GPU领域的多年积累,这对于设计机器学习IP很有帮助。”Ian说道。
上一篇:支持8K超高清的Mali-V76了解一下
下一篇:Arm DesignStart项目有多成功?看看2018年进展吧
推荐阅读最新更新时间:2024-05-03 18:36
- 古尔曼称苹果明年推出 AirTag 2 追踪器:升级 UWB 超宽带芯片,精确定位范围提升 3 倍
- 消息称苹果自研再下一城:蓝牙+Wi-Fi芯片 2025年iPhone 17系列首发
- 苹果从iPhone 18 Pro开始将弃用高通5G芯片
- 印尼投资部长确认:苹果计划在当地投资10亿美元建造零部件工厂
- 消息称苹果有望2026下半年推出折叠iPhone,并重振折叠屏手机市场
- 华为麒麟9020/9030/9040处理器曝光:小步快跑 四大方面升级
- 汇顶超声波指纹方案助力iQOO Neo10流畅解锁体验
- 曝苹果自研5G基带性能弱于高通:iPhone信号问题无解
- 消息称 AMD 将入局手机芯片领域,采用台积电 3nm 工艺