ARM Cortex-A73详细解读-电子工程世界

日前，ARM 处理器部门市场营销总监Ian Smythe和ARM处理器部门技术总监Peter Greenhalgh介绍了关于Cortex-A73处理器的详情，从市场前景到技术架构，无一巨细。以下是发言详情。

在更小的手机里面得到更多的性能，主要的挑战就是散热，也就是说在有限的散热空间里，需要有更有效的处理器。随着手机的不断地进化，各种各样的应用会出现在手机上，这也就需要了更多的处理性能。需要考虑一个问题，手机设计得越来越薄了，同时也需要更长的手机电池寿命，那么对我们的挑战就是怎么样在散热限制以及电池限制的情况下达到更好的使用效果。

我们最终的目标还是用户体验。目前，各种各样的benchmark只是表现了某一个方面，最终还是要追求用户体验的。所以，我们真正需要的是一个非常高效的处理器，能够给我们提供一个持续的高性能。

首先，我们要考虑的是，如果我们的手机变得非常热了会发生什么样的情况。我们做了一个实验，我们跑Geekbench。我们在这上面一直在跑，我们看到它对散热这方面的约束影响。

这边我们有两个方面要考虑，其中一个是SoC温度，一个是手机温度。我们开始跑Geekbench，性能就急剧提升，SoC的温度也开始上升，达到了69°C。大核这边已经跑到了1,550Mhz，小核跑到了1兆赫兹。当我们持续跑这个benchmark以后，手机就开始变得越来越热了，直到最后变得非常烫。

由于我们达到了散热的上线，所以我们要降低处理器SoC的频率，来降低温度。为了能够实现可持续的使用，并同时降低手机的温度，我们必须把大核的频率能够降下来。

这是手机在比较稳定的状态下跑的benchmark。在这个点的时候大核的频率降到1,200兆赫兹，小核还是在1兆赫兹。所以整体上的影响，在频率上会降低20%，在整体的性质上会降低25%，通过Geekbench可以表现出来。

这是一个特定的benchmark，如果我们跑带有GPU的benchmark，手机的温度会上升得更快。所以说在稳定的执行的时候，可持续的执行，怎么才能达到更好的性能，有一个更好的手机的使用时间。所以说答案就是Cortex-A73，在这方面我们做到了最好的功耗比。

所以Cortex-A73提升了30%的性能，在功耗效率方面也是提升了30%，这样能够保持在一个比较好的手机功耗范围内。所以Cortex-A73是我们在ARMv8-A架构里面积最小的旗舰级的处理器。Cortex-A73能够在700毫瓦的范围内能够提升更好的性能，可持续的使用的峰值性能。

所以，在700毫瓦情况下，我们可以看到Cortex-A57有这样一个可持续的性能以及这样的峰值的，Cortex-A73这边我们进一步地提高了它的可持续性能和峰值。相对于可持续的性能，我们针对Cortex-A57提升了大概2.1倍，对Cortex-A72提升了30%。下面请Peter来进一步讲解Cortex-A73。

Cortex-A73是在我们Cortex-A架构里面最新的处理器。Cortex-A73能够提供峰值的性能，达到最好的能耗效率，所以在架构上做了很多的优化，接下来我们会专门讲讲Cortex-A73是如何在性能、能耗效率方面做到这些优化。

就像前面所提到的，这个是我们现实世界里所面对的主要问题，在移动手机方面。

这边是我们Cortex-A73里面的指令集和流水线的情况。前期我们有一个非常高效的流水线，到后面是基于Slot微架构的结构，所有这些都是面向功耗进行优化的。指令缓存这边我们做了64K的指令cache。相对于以前这是一个比较大的设计，这主要是一些应用对Cache的缓存需求比较大，比如在浏览器应用。

我们集中优化的方向是移除信号，这样能够提升IPC。这方面我们做了一个优化，尽量早地把一些指令分解成一些V指令。针对我们做的这些优化，像刚才提到的信号移除，就需要设计一个更高效的跳转预测机制。

在跳转预测结构上，我们有一个64个入口的Micro-BTAC，另外还有一个两路组相连，每一路是256个分时跳转的预测机制。在返回站以及静态预测这方面，我们还同样有这样一个机制，在预测错误的时候有一个非常低的功耗。在前端，我们跟Cortex-A72也有一个比较大的区别。我们现在是2-wide的超标量流水线。在Cortex-A72里面是一个三路的超标量的结构。为什么从Cortex-A72的三路减到两路？就是为了有一个更好的功耗效率。面向功耗效率，我们来做两路的超标量设计。

我们在发射的阶段以及一些存储器的重命名方面做了一些优化。我们还在发射队列以及读取的平衡方面、算法方面也做了一些提升。

在NEON我们重新设计了它的流水线，和以前的Cortex-A72是有所不同的。除了减少时延以外，在MAC的算法方面，我们引出了一个提前终止的机制，比如我们做的64×64操作的时候。在Cortex-A73里面，我们有一个完全的乱序双发射的存取读取机制。在存储这块我们投入了非常多的时间来进行优化。优化的内存系统使Cortex-A73比Cortex-A72达到了更好的效能。由于优化了内存系统，虽然是从三路超标量降到两路超标量，但是同样在性能上甚至是比Cortex-A72更好。在一级缓存以及二级缓存方面，我们做了一些自动预取的机制，使得效率更高。

在内存这方面，我们有一个非常高的可持续内存带宽，我们优化了主存的TLB，会有一个预取的机制，尤其是在一些非常大数据流动量的时候，它可以同时支持two simultaneious Page Table Walks，来读取页表的机制。

在L2 cache这边也是做了非常多的优化，我们可以可持续地读取更多数据，同时不会有性能的丢失。同时，我们对L2的仲裁也是做了一些优化，尤其是在做交叉访问的时候，整个Cache替换的机制也做一个优化，让它更加重要。

Cortex-A73是为了提供给客户最好的用户体验。Cortex-A73专门针对移动市场做了优化，相较Cortex-A72，Cortex-A73在BBench方面提升了10%，Neon提升了5%，Memory这方面提升了15%。需要指出的是，所有这些比较是在同频的情况下进行比较的。可以看到它对性能是有10%或者是15%的提升，在用户体验的过程中会有这样一个提升，像在网络浏览的时候，更多地是提升它的功耗的效率，提升功耗效率20%。

在相同的工艺下面，我们会相对于Cortex-A72在功耗这方面可以节省20%，同样我们还有在功耗效率方面的提升。这样我们就节省了更多的功耗，在做设计的时候可以有更多的应用。

借助工艺的提升，现在Cortex-A73能够做到最小的ARM的处理器。所以Cortex-A73我们能够实现高性能，低功耗，最小面积。如果在相同的工艺情况下，Cortex-A73比Cortex-A72单核面积降低了25%。如果我们借助到工艺的演进，如果Cortex-73做到10纳米，相比Cortex-A72会有46%的面积的降低，同时比Cortex-A57有70%的降低。

我们ARM引入了大小核的概念。借助Cortex-A73，我们把大小核的概念带入了一个新的阶段。Cortex-A73不仅可以和Cortex-A53做大小核，也可以和Cortex-A35做大小核。除了我们和Cortex-A35这样的大小核能够进一步提升，软件方面我们也一直在做提升，从big.LTTILE MP, Energy Aware Scheduling这些软件上的层次，把大小核的效果更好地发挥出来。

借助这些新的大小核技术，我们可以在2017年看到一些设备上，具备更好的性能，同时降低更多功耗。

除了在旗舰级的手机上，Cortex-A73在中端的手机上也增加了使用机会。我相信大家都非常熟悉八核的Cortex-A53结构。我们如果采用Cortex-A73和Cortex-A53来做一个六核，就是两个Cortex-A73大核，加上四个Cortex-A53小核的设计，在同样面积的情况下，用户体验上可以提升30%，在单线程的性能方面提升90%。

Cortex-A73主要是专门针对移动市场以及消费类市场做了一些优化，它是采用了ARM的ARMv8架构 64-bit，以及我们新的大小核架构的系统，可以为用户带来很好的体验。所以我们看到不仅仅是手机，包括一些大屏的应用，像平板电脑，数字电视、机顶盒，都会有很好的应用。

所以Cortex-A73能够提供旗舰级的用户体验。在这个体验里面，我们能借助它更好的功耗的效率和更高的性能，使我们能够设计出这样一个更轻薄的手机，更长的用户使用时间。

就像我们前面讲的，CortexA73能够提供30%的性能提升，30%可持续使用的提升。Cortex-A73结合我们最新的大小的核架构能够进一步提升性能，同时使得使用时间更长，降低功耗。

最后Cortex-A73目前已经得到了非常广泛的授权，在移动市场和消费类市场，我们也相信我们会很快看到基于Cortex-A73的产品面市。

关键字：ARM Cortex 引用地址：ARM Cortex-A73详细解读

上一篇：对正确的任务设计正确的处理器——解析ARM的处理器架构
下一篇：联电28/40纳米急单涌现　有望跟进台积电拼产能满戴

推荐阅读最新更新时间：2024-05-03 15:41

采用ARM7的S3C44BOX的嵌入式定量分析系统设计方案

　　煤矸石是采煤和洗煤过程中排放的固体废物，是一种在成煤过程中与煤层伴生的黑灰色岩石。全国现有矸石山1500余座，堆积量30亿吨以上，占中国工业固体废物排放总量的40%以上。煤矸石的大量堆放，不仅占用土地资源，而且造成环境污染。用洗中煤和矸石混烧发电，是解决污染的有效途径。2009年，煤矸石综合利用量3.9亿吨以上，利用率达到70%以上。如何快速、精确地定量分析混合燃料中煤与矸石的搭配比例，就成为监管部门及企业需要解决的问题。为解决上述问题，本文基于ARM7芯片S3C44BOX，设计了一个集数据采集、处理、显示为一体的嵌入式定量分析系统，并可以通网络将数据传送到远程PC。　　1 系统原理及总体方案设计　　1.1 系统原理

[单片机]

采用<font color='red'>ARM</font>7的S3C44BOX的嵌入式定量分析系统设计方案

Atmel与ARM合力打造物联网开发平台

采用ARM® mbed™ 平台为设计人员开发物联网应用提供了全面的硬件、软件和工具，范围遍及可穿戴设备到消费电子、工业电子以及白色家电近日，全球微控制器（MCU）和触摸技术解决方案领导者Atmel®公司（NASDAQ：ATML）在ARM技术大会上宣布将与ARM就物联网（IoT）mbed设备平台开展合作。对于使用Atmel安全、低功耗和低成本的无线连接解决方案，特别是Atmel SmartConnect Wi-Fi以及与802.15.4兼容解决方案的开发者来说，Atmel与ARM的此番合作将拓宽其生态系统。此外，可穿戴智能设备、家庭自动化系统等物联网开发者也将会更快地把其产品推向市场。建立在

[物联网]

ARM上网本不能运行Windows 7操作系统

据国外媒体报道，微软周三表示，其最新的Windows 7操作系统将不能运行在以ARM为处理器的上网本上。这无疑是对这家英国芯片制造商的沉重打击，ARM一直希望成为上网本领域的大玩家。　　英国芯片厂商ARM此前曾表示，今年公司计划在快速发展的上网本市场分得一杯羹，希望明年可以占据30%的市场份额。　　ARM此前表示，使用ARM处理器的上网本可以运行Linux操作系统。基于开放源代码的Linux操作系统成本更低，且程序员可以根据需要对其进行调整。　　微软OEM业务全球副总裁史蒂夫·古根海默(Steve Guggenheimer)在台北国际电脑展期间接受路透采访时表示：“对于希望拥有一台个人电脑(PC)的人来说，芯片组

[手机便携]

ARM下浮点数Middle-Endian问题的处理

摘要：本文描述了嵌入式GIS软件从X86平台移植到ARM体系结构平台的过程中遇到的浮点数存储字节顺序问题，并对该问题进行了详细分析，最终确定是ARM体系结构下浮点数的Middle-Endian存储问题，并提供了解决方案。　　随着嵌入式微处理器芯片性能的日益提高，嵌入式设备也得到了广泛的应用。随着应用的扩展，嵌入式软件的开发也呈现出功能多样化、平台多样化和体系结构多样化等特点。　　由于可移植性好，相当一部分嵌入式软件都是用C/C++语言开发的，而C/C++语言编写的程序中数据存储字节顺序是与编译平台所用的CPU相关的，所以嵌入式软件移植过程中，数据存储字节顺序是需要重点处理的地方。　　在嵌入式GIS软件从X86体系结构下

[模拟电子]

ARM-elf与ARM-linux的区别

简介：在基于ARM的嵌入式系统开发中，常常用到交叉编译的GCC工具链有两种：arm-linux-*和arm-elf-*，两者区别主要在于使用不同的C库文件。在基于ARM的嵌入式系统开发中，常常用到交叉编译的GCC工具链有两种：arm-linux-*和arm-elf-*，两者区别主要在于使用不同的C库文件。arm-linux-*使用GNU的Glibc，而arm-elf-*一般使用uClibc/uC-libc或者使用REDHAT专门为嵌入式系统的开发的C库newlib.Glibc。uClibc/uC-libc以及newlib都是C语言库文件，只是所应用的领域不同而已，Glibc是针对PC开发的，uClibc/uC-libc是与G

[单片机]

六、ARM 寻址方式

寻址方式是针对源操作数来说的 6.1 立即数寻址源操作数是立即数立即数：操作码以 # 号开头的数字为立即数立即数寻址： MOV R0, #0x300 伪指令： LDR R0,=0x12345678 注意：立即数是 8 位数据存储，用 X 表示（0~255），4 位存移位的次数，用 Y 表示（0~15），立即数 = X 循环右移 2 * Y 个位立即数 0xf200 是由 0xcf2 间接表示的，即是由 8 位的 F2 循环右移 24 位（2 * 12）得到 X = 0xf2； Y = 0xC 6.2 寄存器寻址 MOV R0,R1 源操作数是寄存器 6.3 寄存器移位寻址将寄存器

[单片机]

栈在程序中的作用（ARM结构）

大家肯定学习过了栈这一结构，也知道栈的基本特性，可是栈如何在程序中起作用，特别是C语言中，是不多的。所以今天就来分享一下栈在程序中的作用。首先读这篇文章之前，读者首先要了解两个基本的概念。 1、根据SP指针指向的位置，栈可以分为满栈和空栈（1）满栈：堆栈指针SP总是指向最后压入堆栈的数据。（2）空栈：堆栈指针SP总是指向下一个将要放入数据的空位置。 2、根据SP指针移动的方向，栈可以分为升栈和降栈（1）升栈：随着数据的入栈，SP指针从低地址—— 高地址（2）降栈：随着数据的入栈，SP指针从高地址—— 低地址 ARM采用的是满降栈。下面是一个栈在程序运用中的实例第一排为源代码

[单片机]

栈在程序中的作用（<font color='red'>ARM</font>结构）

ARM9时钟体系结构

本文主要介绍AT91RM9200以及S3C2440处理器的时钟体系结构。 0 概要处理器的时钟源都是外部晶振振荡器产生的，有12MHz也有18MHz的（当然通常情况下外部还会挂接一个数百KHz的晶振，它是RTC所需），但无论是何种都不可能满足ARM核的数百兆赫兹的工作频率（关于各种ARM核的工作频率见附0）。因此需要通过芯片内部的锁相环电路产生更高的工作频率，产生的工作频率再经过分频或者倍频分别供给处理器核以及外设使用。整体框架如下图所示。图处理器时钟架构注：上图之所以将USB单独列出是因为总结的两个处理器（S3C2440以及9200）都有独立提供USB的时钟，至于具体的原因以及与外围控制器中USB

[单片机]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！