安谋(ARM)日前发表Project Trillium智能手机专用机器学习(ML)处理器,以及专为加速物件检测(OD)而设计的处理器。这两款处理器主要用于在消费级硬件上高效运行经训练的机器学习任务,而不是在庞大数据集上训练演算法。而ARM一开始将重点放在ML推论硬件市场的两大市场,智能手机和监控摄影机(IP Camera)。
根据Android Authority报导,ARM正致力于在其CPU和GPU上支援机器学习任务,并在Cortex-A75和A55核心中实现优化的点积(dot product)功能。Trillium透过更高度优化的硬件增强了这些功能,使机器学习任务能以更高性能和更低功耗执行。但ARM的ML处理器不仅是加速器,而是本身即为处理器。
该处理器在1.5W的功率范围内拥有4.6 TOP/s的峰值吞吐量,使其适用于智能手机和更低功耗的产品。由于采用7纳米制程,这颗芯片的功率效率达3 TOP/W。
ARM ML处理器是专为8位元整数运算和卷积神经网络(CNN)而设计,专用于小位元组数据的大量乘法,使其在这些类型的任务中比通用DSP更快、更高效。CNN目前广泛用于影像辨识。而所有外部存储器的读写动作通常会成为系统的瓶颈,因此ARM还设计了大容量内部存储器以加快执行速度。此存储器池的大小可调整,ARM希望根据用例为其合作伙伴提供一系列优化设计。
这颗ML处理器核心可配置为单核心到16核心以提高性能。每个核心都包含优化的固定功能引擎及可程式层,这为开发人员提供一定程度的灵活性。该单元的控制是由网络控制单元监控。
最后,该处理器包含1个直接存储器存取(DMA)单元,以确保快速直接存取系统其他部分的存储器。该ML处理器可作为其独立IP区块,具有用于整合到系统单芯片(SoC)中的ACE-Lite介面,或能作为SoC的外部固定区块运行,甚至能与Armv8.2-A CPU一起整合到DynamIQ丛集中。
整合到DynamIQ丛集会是非常强大的解决方案,可对丛集中的其他CPU或ML处理器提供低延迟数据存取,并可高效地进行任务调度。
ARM在2017年推出Cortex-A75和A55 CPU以及高阶Mali-G72 GPU,但直到近1年后才推出专用机器学习硬件。但是,ARM确实把重点放在加速其最新硬件内部的通用机器学习操作上,而这仍是该公司未来战略的一部分。
ARM最新的Mali-G52 GPU将机器学习任务的性能提高了3.6倍,这要归功于支援点积功能和每个通道的4次乘法累加操作。点积功能也出现在A75、A55和G72中。
即使推出新的OD和ML处理器,ARM仍继续支持其最新的CPU和GPU的加速机器学习任务。其即将推出的专用机器学习硬件旨在使这些任务在适当的情况下更高效,但它是广泛的解决方案组合中的一部分,旨在满足其广泛的产品伙伴。
从单核心到多核心的CPU和GPU,再到可扩展到16核心的ML处理器,ARM足以支援从简单智能音响到自驾车和数据中心等产品。而该公司也提供软件来处理这种可扩展性。
ARM的Compute Library为其CPU、GPU及ML处理器处理机器学习任务的工具。此程式库提供用于影像处理、电脑视觉、语音辨识等低级软件功能。ARM甚至以Cortex-M微处理器的CMSIS-NN核心支援嵌入式应用。与基线功能相比,CMSIS-NN提供高达5.4倍的吞吐量和5.2倍的能效。
硬件和软件实现的这种广泛的可能性需要1个灵活的程式库,此即ARM Neural Network的用武之地。ARM并不想取代TensorFlow或Caffe等热门架构,而是想将这些架构转换成能在任何特定硬件上运行的程式库。因此,若用户手机未搭载ARM ML处理器,该程式库仍能在手机CPU或GPU上运行任务。ARM的目标是想将设定隐藏在幕后以简化开发。
目前,ARM正专注于为机器学习的推论提供支援,使消费者能在其装置上高效地运行复杂演算法。由于5G网络还要几年才能普及,加上人们对隐私和安全性的担忧日益增加,ARM决定在边缘推动机器学习运算。
最重要的是,ARM的机器学习功能不仅适用于旗舰级产品。透过支持各种硬件和可扩展性选项,各种价位的智能手机、从低成本智能音响到昂贵服务器的各种产品都能受益。即使在ARM专用ML硬件进入市场之前,利用其点积增强型CPU和GPU的现代SoC,也将比旧硬件获得更高的性能和能源效率。
上一篇:Google与台ODM/OEM厂商在汽车、穿戴和居家等领域加深合作
下一篇:杭州矽力杰去年营收创新高,消费性电子与工业应用仍是主力
推荐阅读最新更新时间:2023-10-13 10:26