腾讯数码讯(易静)半导体企业正在用异构系统提高硬件的性能和效率,当中有一个领域尤其重要,那就是视觉处理技术,在今年的Linley Processor Conference会议上,视觉处理成为焦点。
视觉处理用在哪里?最明显的例子就是自动驾驶汽车。今天的自动驾驶汽车有一个肮脏的小秘密:它们高度依赖大量的电子组件。传感器与软件是重点,还需要强大的CPU和多个GPU,它们会消耗大量的电力,处理所有数据,实时做出决策。月初时,Nvidia推出了Drive PX Pegasus主板,它还承认当前的硬件无法支持真正的无人驾驶。Nvidia汽车高级主管丹尼o夏皮罗(Danny Shapiro)说:“如果想开发Level 5汽车,需要更大的计算力,这就是现实。”
不只汽车如此,其它行业也一样。在机器人、无人机、智能监控摄像头、VR、AR、人机界面等领域,嵌入式视觉处理器很重要。在主题演讲中,Cognite Ventures CEO克里斯o罗恩(Chris Rowen)说,老牌IP提供商引导硅芯片复苏,比如Cadence (Tensilica)、 Ceva、英特尔(Mobileye)、Nvidia和Synopsys,它们和95家创业公司竞争,这些创业公司正在开发嵌入式视觉技术,当中包括17家正在开发神经引擎的创业公司。
Cadence营销主管普林o德塞(Pulin Desai)谈到嵌入式视觉技术时说,在推断时涉及三个独立的系统:感知(摄像头、雷达、激光雷达和麦克风)、前期和后期处理技术(降噪、图像稳定、HDR等等),还有就是用神经网络分析面部、识别对象和手势。这些感知任务都是由处理器和ISP(图像信息处理器)完成的,Cadence还开发了Tensilica Vision C5 DSP,它专门用来驱动神经网络。
德塞解释说,如果想为一款产品开发嵌入神经引擎的芯片,挑战还是很大的,这样的产品要到2019年或者2020年才能上市。他还说,在不到4年的时间里,图像识别神经网络算法需要的计算力增加了16倍。与此同时,神经网络架构快速变化,新应用涌现,硬件必须更有弹性。处理所有问题时必须追求低能耗,因为电能有限。
Vision C5是一个神经网络DSP(NNDSP,数字信息处理器),它在一个内核内处理神经网络层,网络层拥有1024个8位和512个16位MACs,每平方毫米芯片面积每秒可以完成1万亿次MACs(一个机器指令周期能实现乘加运算)运算。Vision C5有很强的扩展性,内核可以增加到任意数量,拥有更强的性能,可以编程。Vision C5是用台积电16纳米制程制造的,频率690MHz,与商用GPU相比,它能让AlexNet的运行速度提高6倍,让Inception V3提高9倍,让ResNet50提高4.5倍。
华为在新的Mate 10和Mate 10 Pro手机中安装了麒麟970处理器,它是第一块安装专用神经引擎单元的智能手机处理器,半精度运算速度达到1.92 teraflops(万亿次浮点运算)。Cadence也曾多次谈到半精度运算,但是没有透露Vision C5具体是多少。苹果A11 Bionic安装了神经引擎,其它企业也应该会跟进。Vision C5还想进入监控、汽车、无人机、穿戴设备。
Ceva-XM Vision DSP与Vision C5竞争,许多摄像头模组都用到了Ceva,将它植入ISP,比如Rockchip的RK1608,或者将它用作独立辅助芯片,用来处理图像。Ceva在神经网络方面找到一套解决办法,它将CEVA-XM与独立CNN硬件加速器(Hardware Accelerator)搭配使用,加速器最高拥有512个MAC单元。Ceva营销主管亚伊尔o西格尔(Yair Siegel)曾谈到神经网络的增长,他说,在计算和存储带宽方面,先进CNN的要求很高。Ceva Network Generator将这些模型转化为定点图,进行区分,让它在Vision DSP和Hardware Accelerator之间高效运行。Ceva说,TinyYolo如果只使用DSP,相比而言加入硬件加速器的效率高9倍。TinyYolo是一套实时对象识别算法。
Synopsys开发的EV6x Embedded Vision Processor(嵌入式视觉处理器)采用相似的方法,它将最多4个CPU(每个都有一个纯量运算单元和宽矢量DSP)与一个CNN Engine结合,CNN Engine是可以选择可以编程的,这样就可以让速度加快。CNN Engine的MACs数量可以从880增加到1760再到3520个,用台积电16纳米制造芯片,频率1.28GHz,芯片的总MACs最高可以达到4.5万亿(相当于9 teraflops的性能)。一个搭配CNN Engine的EV61矢量DSP使用的芯片面积不到1平方毫米,但是Synopsys却说这套组合产品的每瓦MACs可以达到20万亿。Synopsys产品营销经理戈尔登o库勃(Gordon Cooper)强调说,矢量DSP与CNN加速器整合相当重要,这种解决方案可以提高每瓦性能,解决ADAS(先进驾驶辅助系统)存在的一些问题,比如难以识别行人。
高通的解决办法是增加新的指令,叫作Vector eXtensions或者HVS,它将新指令放进Hexagon DSP,装进骁龙处理器。2年前高通首次引入这种技术,谷歌Pixel手机之所以支持HDR,离不开高通的技术。最近,谷歌取得突破,开发了自己的技术Pixel Visual Core,但它之前的确已经向我们证明:把TensorFlow图像识别网络从4核CPU转到Hexagon DSP可以将性能大幅提高13倍。
高通产品管理高级主管里克o莫尔(Rick Maule)说,在过去几年里,高通了解到客户需要更多的处理器周期,希望存储访问速度更快一些。高通的解决办法就是将计算单元的数量增加一倍,将频率提高50%,在计算单元中植入低延迟存储器。这样一来,骁龙820的每秒MACs数量可以从990亿增加到2880亿,最终执行Inception V3图像识别模型时速度提高了2倍。除了性能提升,高通还引进了Snapdragon Neural Processing Engine(骁龙神经处理引擎)、抽象层、Halide(面向图像处理、计算摄影的特定语言),它们可以让神经网络编程变得更容易。
这些进步引人注目,不过创业公司AImotive却认为,在50瓦之下只有专用的硬件才能支撑完整的Level 5无人驾驶系统。AImotive aiWare硬件IP主管费赫(Márton Fehér)认为,行业面临挑战,现在没有谁的硬件能够解决,也就是说系统需要处理大量的输入信息(流图像和视频),还有非常深的网络,必须确保安全,要实时处理。
费赫认为,面向嵌入式实时推断的弹性通用DNN解决方案效率不高,虽然它具有可编程性,但是是以牺牲每瓦性能作为代价的,不值得。aiWare架构可以覆盖DNN运行96-100%的范围,可以让MAC利用率达到最大化,尽量少使用外部存储器。
aiWare已经开发了一套FPGA开发者工具包,还有一套公共基准套件,它正在开发测试芯片,用GlobalFoundries 22nm FD-SOI制程制造,产品2018年一季度就会推出。aiWare已经与英特尔(Altera)、Nvidia、NXP半导体、高通建立了合作关系。AImotive还开发了aiDrive软件套件,给自动驾驶系统和驾驶模拟器使用,它还与博世、PSA集团、沃尔沃等企业建立了合作关系。
视觉处理面临挑战,解决问题的方法有很多,不过在Linley Processor Conference会议上有一点是大家都认同的:视觉处理需要强大的硬件。传感器收集的数据相当庞大,模型越来越大,处理必须实时完成,消耗的电量必须比现有解决方案低。在未来几年里,我们会看到该领域出现更多的创新成果,因为产业正在努力。
上一篇:新版AlphaGo赢过旧版:不仅会自学 且只需4个TPU芯片
下一篇:高通骁龙芯片重大变革:全面AI化
推荐阅读最新更新时间:2024-05-03 01:51