随着Arm TCS23(Total Compute Solutions 2023)的推出,Arm 终端事业部产品管理高级总监 Kinjal Dave在Arm官方博客上发表了一篇题为《TCS23 为移动计算提供完整平台》的博文。日前,Kinjal Dave面对中国媒体,详细介绍了TCS23性能的提升,以及为终端带来体验的提升。
自2019年决定开始使用TCS的方法进行产品定义和开发之后,Arm以解决方案的角度进行技术产品的开发已经持续了几年,目前TCS23是第三代TCS。
TCS是将CPU、GPU、系统级 IP 元素融合,力求通过平台化、方案化的方式满足不同客户共同的需求。每年产品的迭代升级,使得开发变得更加困难,同时成本也日趋高昂,为了不断增强用户体验,Arm选择推出TCS整体方案,以全面的系统级平台应对一切挑战。
TCSf23都包括什么?
作为整体解决方案,Arm的TCS包括了工具、软件、硬件IP,硬件IP包括了底层IP、Arm架构、物理IP以及POP IP等。
硬件IP已经是连续数年的双位数提升,具体包括了CPU IP Cortex-X4、Cortex-A720和Cortex-A520,以及GPU IP Immortalis-G720、 Mali-G720和Mali-G620。
软件方面,Arm看重性能、安全以及开发者的可访问性。针对如今机器学习的大热,TCS23中更新了包括Arm NN 以及 Arm Compute Library (ACL)的库。
Dave透露自 2023 年 1 月以来,Arm NN和 ACL 已经通过谷歌的 Google Play Store 在安卓系统上提供,而且已经有超过 1 亿的日活跃用户。此外,到 2024 年,不管是Arm NN还是 ACL 都可以使用谷歌的移动平台,意味着开发者能够在可下载的项目,在默认状态下更新到网络最新的版本。
在图像开发方面,Arm除了提供免费的开发工具之外,还与游戏引擎工作室进行合作,一起推动图形技术的进步,并且以可扩展的方式实现产品的优化。并且为开发者提供培训以及最佳实践分享,以及与游戏工作室进行合作等等。
在系统方面,升级到了最新的Arm v9.2架构,DynamIQ共享单元也得到了升级,支持更多的可扩展性以及更细致的电源控制模式,可通过更细的颗粒度降低功耗。
Arm也针对最新的工艺节点和库优化了物理IP,为设计和制造提供了优化的EDA流程与物理实现。
Dave强调,作为整体平台,Arm TCS是以全局观来提高方案的性能和效率。一方面要提升单独的IP性能,另外则是提升整体IP集合的系统级性能。
更科学的测试方法
而在测试方面,Arm一方面使用基准测试来评估产品性能,另外则是从实际应用的角度进行真实的测试与评估。“我们会超前生态系统的发展展开研发工作,所以如果在此前找不到一些实际的技术内容,我们可能就会自己建构这些技术内容。比如光线追踪技术、VRS以及机器学习内容等。”
在系统测试方面,Arm 2022年在 FPGA 上构建了一个完整的子系统原型验证平台,从而超越独立IP,来分析完整运行的操作系统及程序,比如安卓 13 以及复杂的工作负载。完整的参考系统包括一个Cortex-X4,三个Cortex-A720,以及四个 Cortex-A520,此外还包括DSU-120 和L3 缓存,CPU集群与Immortalis-G720 GPU通过CoreLink CI-700 互联,并且搭载了最新的 LPDDR5x。
通过现实的用例环境以及实验室基准测试,TCS23得到了非常好的结果,比如每帧平均减少 30% DRAM 的带宽,而在PUBG实际测试中,DRAM 带宽更是减少了 44%。
DRAM带宽的减少为什么重要?实现更少量的数据传输,减少外部的带宽,就意味着降低系统能耗。实现方式则是通过更多的GPU 管道来减少数据传输,减少系统级缓存,从而避免从外部存储器加载数据。
DRAM带宽减少主要是因为Immortalis-G720 GPU 采用了称为延迟顶点着色(DVS)的技术,GPU在执行阶段才会载入内存中,不像之前那样需要两次载入内存,因此大幅降低了对带宽的要求。
GPU实际测试采用了GFXBench,曼哈顿3.0结果显示比TCS22提升了21%,阿兹特克废墟测试则提升了20%。
在CPU相关测试中,1+5+2的新一代CPU集群相比TCS22 1+3+4的方案,GeekBench 多线程性能提升了27%,这是计算机、笔记本电脑和智能手机的主要基准测试。而Speedmeter纯硬件性能提升了33%,软硬件协同优化下更是可提升64%。Speedometer 是一个浏览器基准测试工具,通过模拟用户在Web 应用上的交互来衡量响应速度。
而关于ML的测试,TCS23 和 TCS 22相比,CPU在物体识别、物体分类、实时人脸识别以及人体追踪等方面都实现了双位数提升。而GPU方面,Immortalis-G720支持FSRCNN 720p FP32超分辨率的机器学习。
在软件测试方面,Arm支持Profile Guided Optimization (PGO),可以收集应用执行需要的各类数据、信息,并针对性的进行优化。收集功能可以详细了解应用的瓶颈,从而能够有指导的进行调整,获得最大的增益。比如光线追踪技术,软件以及硬件的优化为它带来的性能的提升。Arm在参考平台上运行的 PGO 版本的 Chromium浏览器提升30%。
Dave表示,TCS23软件的提升包括:安卓动态性能框架 (Android Dynamic performance Framework, ADPF) 、仅支持64位的迁移、更高的安全性,以及更完善的编译器。其中,安全方面的提升包括AVF 安卓虚拟化的框架,更高性能的加密算法,TF-A 的升级。
TCS23参考设计详解
Arm参考设计是为了降低部署风险,缩短产品上市周期的一种有效方法。Dave指出目前移动SoC设计存在着诸多挑战,包括IP越来越复杂、需要跨领域跨系统调试、终端场景多样化以及整体芯片设计流程等等方面。
Arm的参考设计并不是Arm拍脑袋想出来的,而是将合作伙伴的现实用例解构、再建模、针对模型进行测试和优化,然后再开发基于FPGA的仿真,验证,测试等等一系列流程之后,才会交付到客户手中。
TCS23 的参考设计包括了CPU集群、GPU集群、内存管理MMU-700、DSU-120多核心管理系统单元、CoreLink CI-700和NI-700互联技术,MMU-700转换缓冲单元等。
在降低功耗方面,首先是电源模式时钟选项提供完整的解决方案,其次是动态共享单元集群支持的 L3 缓存片和逻辑增强型降功耗模式。正如文章开始时表示,DRAM延迟在TCS23上通过DynamIQ实现了优化,另外包括GPU、摄像头以及多媒体等内存加载实现了优化。
另外,TCS23支持高级供电模式,不同的IP不同的供电线路,有单独的电压管理、电源管理以及电源及电源网络控制不见,从而实现细化的调度器,和操作系统的电源管理软件搭配工作。
GPU的优化包括了带宽、功耗以及安全性。Arm将Immortalis-G720与MMU-700协同实现了优化。GPU支持固定速率和无损压缩方案 (AFRC 与 AFBC),最大限度地减少 DRAM 的访问,并且能够支持更多的散热空间。同时IO一致性也将缓存维护开销降到最低。CoreLink CI-700提供了大型系统高速缓存,并且通过内存分配提示优先可以确定哪部分存在高速缓存中。
功耗方面,GPU同样利用时钟管理动态功率,提供了时钟和复位生成逻辑的参考。
最后,安全性方面,MMU-700 支持 DRAM 保护内容安全处理,以及支持安卓虚拟化框架。
总的说来,通过提供 TCS 全面计算解决方案,Arm 已经超越单个 IP 产品的供应商,为客户实现端到端系统级的优化,从而释放整个 SoC 系统全面性能,让大家更多更快的体会到 TCS23 所带来更大的算力、更高的安全性和效率。
上一篇:高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧
下一篇:国产手机芯片巨头紫光展锐换帅,为IPO做准备?
推荐阅读最新更新时间:2024-11-23 11:45
- 曝iPhone SE 4首发苹果自研5G基带:明年3月登场
- 曝iPhone 17全系首发3nm A19系列芯片:无缘台积电2nm工艺制程
- 供应链称上游元器件要大降价:国产手机现涨价潮后会主动下调售价吗
- 消息称苹果将拿出近 1 亿美元用于解除印尼 iPhone 16 系列销售禁令
- 消息称塔塔公司收购和硕在印度的唯一一家iPhone工厂,深化与苹果合作
- 苹果遭4000万英国iCloud用户集体诉讼,面临276亿元索赔
- 消息称苹果、三星超薄高密度电池均开发失败,iPhone 17 Air、Galaxy S25 Slim手机“变厚”
- 美光亮相2024年进博会,持续深耕中国市场,引领可持续发展
- Qorvo:创新技术引领下一代移动产业
- DM330023,dsPICDEM MCHV 开发系统
- 使用 ON Semiconductor 的 FAN4810 的参考设计
- MC34072VDR2G 直流耦合反相放大器最大输出摆幅的典型应用
- 具有简单驱动输入电流消除和 I2C 接口的 LTC2499IUHF 24 位、16 通道 ADC 的典型应用电路
- 使用 Analog Devices 的 LT3470ETS8 的参考设计
- BFP640F 低噪声硅锗晶体管作为 5 - 6GHz 单级低噪声放大器
- AD8532ARZ1 用于多媒体和汽车应用的单电源、平衡线路驱动器的典型应用
- 使用 NXP Semiconductors 的 TDA8933B 的参考设计
- 水位控制系统
- DC1747A-A,使用 LTM2882-5 双路隔离 RS232 模块收发器 + 电源的演示板