从TCS23,看Arm TCS的设计理念

发布者:EEWorld资讯最新更新时间:2023-06-27 来源: EEWORLD关键字:Arm  TCS 手机看文章 扫描二维码
随时随地手机看文章

随着Arm TCS23(Total Compute Solutions 2023)的推出,Arm 终端事业部产品管理高级总监 Kinjal Dave在Arm官方博客上发表了一篇题为《TCS23 为移动计算提供完整平台》的博文。日前,Kinjal Dave面对中国媒体,详细介绍了TCS23性能的提升,以及为终端带来体验的提升。


自2019年决定开始使用TCS的方法进行产品定义和开发之后,Arm以解决方案的角度进行技术产品的开发已经持续了几年,目前TCS23是第三代TCS。


TCS是将CPU、GPU、系统级 IP 元素融合,力求通过平台化、方案化的方式满足不同客户共同的需求。每年产品的迭代升级,使得开发变得更加困难,同时成本也日趋高昂,为了不断增强用户体验,Arm选择推出TCS整体方案,以全面的系统级平台应对一切挑战。


TCSf23都包括什么?


image.png


作为整体解决方案,Arm的TCS包括了工具、软件、硬件IP,硬件IP包括了底层IP、Arm架构、物理IP以及POP IP等。


硬件IP已经是连续数年的双位数提升,具体包括了CPU IP Cortex-X4、Cortex-A720和Cortex-A520,以及GPU IP Immortalis-G720、 Mali-G720和Mali-G620。


软件方面,Arm看重性能、安全以及开发者的可访问性。针对如今机器学习的大热,TCS23中更新了包括Arm NN 以及 Arm Compute Library (ACL)的库。


Dave透露自 2023 年 1 月以来,Arm NN和 ACL 已经通过谷歌的 Google Play Store 在安卓系统上提供,而且已经有超过 1 亿的日活跃用户。此外,到 2024 年,不管是Arm NN还是 ACL 都可以使用谷歌的移动平台,意味着开发者能够在可下载的项目,在默认状态下更新到网络最新的版本。


在图像开发方面,Arm除了提供免费的开发工具之外,还与游戏引擎工作室进行合作,一起推动图形技术的进步,并且以可扩展的方式实现产品的优化。并且为开发者提供培训以及最佳实践分享,以及与游戏工作室进行合作等等。


在系统方面,升级到了最新的Arm v9.2架构,DynamIQ共享单元也得到了升级,支持更多的可扩展性以及更细致的电源控制模式,可通过更细的颗粒度降低功耗。


Arm也针对最新的工艺节点和库优化了物理IP,为设计和制造提供了优化的EDA流程与物理实现。


Dave强调,作为整体平台,Arm TCS是以全局观来提高方案的性能和效率。一方面要提升单独的IP性能,另外则是提升整体IP集合的系统级性能。


更科学的测试方法


而在测试方面,Arm一方面使用基准测试来评估产品性能,另外则是从实际应用的角度进行真实的测试与评估。“我们会超前生态系统的发展展开研发工作,所以如果在此前找不到一些实际的技术内容,我们可能就会自己建构这些技术内容。比如光线追踪技术、VRS以及机器学习内容等。”


在系统测试方面,Arm 2022年在 FPGA 上构建了一个完整的子系统原型验证平台,从而超越独立IP,来分析完整运行的操作系统及程序,比如安卓 13 以及复杂的工作负载。完整的参考系统包括一个Cortex-X4,三个Cortex-A720,以及四个 Cortex-A520,此外还包括DSU-120 和L3 缓存,CPU集群与Immortalis-G720 GPU通过CoreLink CI-700 互联,并且搭载了最新的 LPDDR5x。

image.png

通过现实的用例环境以及实验室基准测试,TCS23得到了非常好的结果,比如每帧平均减少 30% DRAM 的带宽,而在PUBG实际测试中,DRAM 带宽更是减少了 44%。


DRAM带宽的减少为什么重要?实现更少量的数据传输,减少外部的带宽,就意味着降低系统能耗。实现方式则是通过更多的GPU 管道来减少数据传输,减少系统级缓存,从而避免从外部存储器加载数据。


DRAM带宽减少主要是因为Immortalis-G720 GPU 采用了称为延迟顶点着色(DVS)的技术,GPU在执行阶段才会载入内存中,不像之前那样需要两次载入内存,因此大幅降低了对带宽的要求。

image.png

GPU实际测试采用了GFXBench,曼哈顿3.0结果显示比TCS22提升了21%,阿兹特克废墟测试则提升了20%。

image.png

在CPU相关测试中,1+5+2的新一代CPU集群相比TCS22 1+3+4的方案,GeekBench 多线程性能提升了27%,这是计算机、笔记本电脑和智能手机的主要基准测试。而Speedmeter纯硬件性能提升了33%,软硬件协同优化下更是可提升64%。Speedometer 是一个浏览器基准测试工具,通过模拟用户在Web 应用上的交互来衡量响应速度。

image.png

而关于ML的测试,TCS23 和 TCS 22相比,CPU在物体识别、物体分类、实时人脸识别以及人体追踪等方面都实现了双位数提升。而GPU方面,Immortalis-G720支持FSRCNN 720p FP32超分辨率的机器学习。


在软件测试方面,Arm支持Profile Guided Optimization (PGO),可以收集应用执行需要的各类数据、信息,并针对性的进行优化。收集功能可以详细了解应用的瓶颈,从而能够有指导的进行调整,获得最大的增益。比如光线追踪技术,软件以及硬件的优化为它带来的性能的提升。Arm在参考平台上运行的 PGO 版本的 Chromium浏览器提升30%。


Dave表示,TCS23软件的提升包括:安卓动态性能框架 (Android Dynamic performance Framework, ADPF) 、仅支持64位的迁移、更高的安全性,以及更完善的编译器。其中,安全方面的提升包括AVF 安卓虚拟化的框架,更高性能的加密算法,TF-A 的升级。


TCS23参考设计详解


Arm参考设计是为了降低部署风险,缩短产品上市周期的一种有效方法。Dave指出目前移动SoC设计存在着诸多挑战,包括IP越来越复杂、需要跨领域跨系统调试、终端场景多样化以及整体芯片设计流程等等方面。


Arm的参考设计并不是Arm拍脑袋想出来的,而是将合作伙伴的现实用例解构、再建模、针对模型进行测试和优化,然后再开发基于FPGA的仿真,验证,测试等等一系列流程之后,才会交付到客户手中。


TCS23 的参考设计包括了CPU集群、GPU集群、内存管理MMU-700、DSU-120多核心管理系统单元、CoreLink CI-700和NI-700互联技术,MMU-700转换缓冲单元等。


在降低功耗方面,首先是电源模式时钟选项提供完整的解决方案,其次是动态共享单元集群支持的 L3 缓存片和逻辑增强型降功耗模式。正如文章开始时表示,DRAM延迟在TCS23上通过DynamIQ实现了优化,另外包括GPU、摄像头以及多媒体等内存加载实现了优化。

image.png

另外,TCS23支持高级供电模式,不同的IP不同的供电线路,有单独的电压管理、电源管理以及电源及电源网络控制不见,从而实现细化的调度器,和操作系统的电源管理软件搭配工作。

image.png

GPU的优化包括了带宽、功耗以及安全性。Arm将Immortalis-G720与MMU-700协同实现了优化。GPU支持固定速率和无损压缩方案 (AFRC 与 AFBC),最大限度地减少 DRAM 的访问,并且能够支持更多的散热空间。同时IO一致性也将缓存维护开销降到最低。CoreLink CI-700提供了大型系统高速缓存,并且通过内存分配提示优先可以确定哪部分存在高速缓存中。


功耗方面,GPU同样利用时钟管理动态功率,提供了时钟和复位生成逻辑的参考。


最后,安全性方面,MMU-700 支持 DRAM 保护内容安全处理,以及支持安卓虚拟化框架。


总的说来,通过提供 TCS 全面计算解决方案,Arm 已经超越单个 IP 产品的供应商,为客户实现端到端系统级的优化,从而释放整个 SoC 系统全面性能,让大家更多更快的体会到 TCS23 所带来更大的算力、更高的安全性和效率。

关键字:Arm  TCS 引用地址:从TCS23,看Arm TCS的设计理念

上一篇:高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧
下一篇:国产手机芯片巨头紫光展锐换帅,为IPO做准备?

推荐阅读最新更新时间:2024-11-23 11:45

ARM大力布局NB-IoT Cordio-N首颗测试芯片年底现身
  安谋( ARM )在2月宣布收购Mistbase和NextG-Com两家公司后,进一步发表其专为 NB-IoT 设计的Cordio-N硅智财(IP)具体发展时程。据了解,第一颗采用Cordio-N硅智财授权方案的测试芯片将在2017年第四季问世,至于整个授权方案正式推出的时间点,将落在2018年中。下面就随手机便携小编一起来了解一下相关内容吧。   ARM 无线通信事业群技术营销经理窦振诚表示,Cordio是由Cortex再加上无线电(Radio)组合而成的产品名称,其目标是希望让IC设计者能很快地实现超低功耗无线连接设计。整体来说,Cordio产品家族将支持802.15.3、802.15.4及 NB-IoT 等各种低功耗无
[手机便携]
基于ARM7的畜牧养殖智能消毒机器人控制系统设计
1 总体方案设计 畜牧养殖智能消毒机器人控制系统由机器人智能控制模块、监视模块、及无线网络通讯模块等三大部分组成。工作过程是通过接入互联网的手机或者微型计算机客户端通过无线网络向远程的机器人发送控制指令代码,期间传输信号由发送端使用加密狗加密。当信号经互联网发送到接收终端时,智能消毒机器人网络模块把接收的指令传送到处理器,处理器指示驱动模块驱动智能消毒机器人执行动作。运动的同时监视模块把采集到的图像通过无线互联网传输到客户机端,其整体结构如图1所示。 1.1 智能控制模块 此模块是智能消毒机器人的核心部分。采用的是嵌入式系统设计,可以准确高效地运行及处理数据。控制器通过网络组件WIFI或者GPRS与外部网络进行数据通讯,
[单片机]
基于<font color='red'>ARM</font>7的畜牧养殖智能消毒机器人控制系统设计
ARM开发板系统移植-----kernel的编译
前面一篇文章介绍了开发板上系统软件的第一部分--bootloader的编译方法。 背景:把bootloader烧写到开发板的Nand Flash中后,开发板从Nand启动,硬件会自动将bootloader加载到内存中运行,bootloader将板载资源都初始化完成后,会停留在一个命令行界面,接收并执行用户敲入的命令。这时候用户可以通过命令控制开发板,比如查看参数列表:print、读写nand:nand readnand write 、内存管理:mm、设置参数列表:setenv、网络下载:tftp、启动内核:bootm等等。如果我们把一个编译好的内核通过tftp服务器下载到内存中,就可以通过bootm 命令启动内核。 好吧,
[单片机]
<font color='red'>ARM</font>开发板系统移植-----kernel的编译
高通总裁安蒙:产能紧张睡不好觉 反对NVIDIA收购Arm
近日,高通总裁兼候任CEO克里斯蒂亚诺·安蒙(以下简称安蒙)接受了美国媒体CENT的采访,回应了近期包括产能紧张,新CEO任命以及NVIDIA收购Arm等诸多热点话题。 安蒙表示,半导体行业的产能紧张问题让其“夜不能寐”,半导体行业正遭遇供应链危机,这一情况可能要到今年下半年才会缓解。对于高通任命其成为新任CEO,安蒙透露出乎其意料之外,在公司正式宣布前三天才知晓。采访中安蒙再次表达了对于NVIDIA收购Arm的反对意见,认为其动摇了Arm的独立性,并不利于Arm生态的发展。 因缺货睡不好觉 去年下半年以来,整个半导体行业开始普遍遭遇产能紧张的情况。因疫情初期产生的订单减少以及随后市场需求增加加速了整个行业的缺货局面。 “如果
[手机便携]
基于arm7的(lpc2388)flash的读写操作
开始工作不久就碰到一个flash读写的问题。是一块lpc2388的芯片(arm7), 开始总是抱着一arm11的flash读写的方式去看数据手册。看了好长时间都没有一个很好的解决方发。 后来我在keil的库文件中找到:flash的写入方式。如下://C:\Keil\ARM\Flash\LPC2888\FlashPrg.c /* * Program Page in Flash Memory * Parameter: adr: Page Start Address * sz: Page Size * buf: Page Data * Return Value: 0
[单片机]
ARM中断寄存器
1.中断分两大类:内部中断和外部中断。 2.外部中断。24个外部中断占用GPF0-GPF7(EINT0-EINT7),GPG0-GPG15(EINT8-EINT23)。用这些脚做中断输入,则必须配置引脚为中断,并且不要上拉。具体参考datesheet数据手册。 寄存器:EXTINT0-EXTINT2:三个寄存器设定EINT0-EINT23的触发方式。 EINTFLT0-EINTFLT3:控制滤波时钟和滤波宽度。 EINTPEND:这个是中断挂起寄存器,清除时要写1,后面还有几个是写1清除。当一个外部中断(EINT4-EINT23)发生后,那么相应的位会被置1。为什么没有EINT0-EINT3,呵
[单片机]
<font color='red'>ARM</font>中断寄存器
基于ARM的I2C设备控制方法的实现研究
1 引 言 I2C总线是由Philips公司开发的2线式串行总线,由于其简单、高效、互联成本小而被广泛地用于微控制器与外围设备的连接。AT91SAM7X256是Atmel公司于2005年推出的基于ARM7的工业级芯片,他以体积小、功耗低、连接方式广泛、处理资源丰富、控制灵活等特点受到嵌入式领域开发人员的重视。本文介绍AT91SAM7X256的I2C控制器TWI接口(two-wired interface)的使用方法,并以I2C设备E2PROM和日历时钟芯片为例,实现AT91SAM7X256对时间数据的读取与存储。同时,为了验证时间数据的读取与存储是否正确,使用AT91SAM7X256的在线仿真器J-LINK将E2PROM
[工业控制]
基于<font color='red'>ARM</font>的I2C设备控制方法的实现研究
小广播
最新手机便携文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved