ARM程序设计优化策略与技术-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

程序优化是指软件编程结束后，利用软件开发工具对程序进行调整和改进，让程序充分利用资源，提高运行效率，缩减代码尺寸的过程。按照优化的侧重点不同，程序ARM优化可分为运行速度优化和代码尺寸优化。运行速度优化是指在充分掌握软硬件特性的基础上，通过
应用程序结构调整等手段来降低完成指定任务所需执行的指令数。在同一个处理器上，经过速度优化的程序比未经优化的程序在完成指定任务时所需的时间更短，即前者比后者具有更高的运行效率。代码尺寸优化是指，采取措施使应用程序在能够正确完成所需功能的前提下，尽可能减少程序的ARM代码量。

然而在实际的程序设计ARM过程中，程序优化的两个目标（运行速度和代码大小）通常是互相矛盾的。为了提高程序运行效率，往往要以牺牲存储空间、增加代码量为代价，例如程序设计中经常使用的以查表代替计算、循环展开等方法就容易导致程序代码量增加。而为了减少程序代码量、压缩存储器空间，可能又要以降低程序运行效率为代价。因此，在对程序实施优化之前，应先根据实际需求确定相应的策略。在处理器资源ARM紧张的情况下，应着重考虑运行速度优化；而在存储器资源使用受限的情况下，则应优先考虑代码尺寸的优化。

1 程序运行速度优化
程序运行速度优化的方法可分为以下ARM几大类。
1.1 通用的优化方法
(1)减小运算强度

利用左/ 右移位操作代替乘/ 除2 运算：通常需要乘以ARM或除以2 的幂次方都可以通过左移或右移n 位来完成。实际上乘以任何一个整数都可以用移位和加法来代替乘法。ARM 7 中加法和移位可以通过一条指令来完成，且执行时间少于乘法指令。例如： i = i × 5 可以用i = (i& lt;<2) + i 来代替。
利用乘法代替乘方运算：ARM7 核中内建有32 ×8 ARM乘法器，因此可以通过乘法运算来代替乘方运算以节约乘方函数调用的开销。例如： i = pow(i, 3.0) 可用 i = i×i × i 来代替。
利用与运算代替求余运算：有时可以通过用与（AND ）指令代替求余操作（% ）来提高效率。例如：i = i % 8 可以用 i = i & 0x07 来代替。
(2)优化循环终止ARM条件
在一个循环结构中，循环的终止条件将严重影响着循环的效率，再加上ARM 指令的条件执行特性，所以在书写循环的终止条件时应尽量使用count- down-to-zero结构。这样编译器可以用一条BNE （若非零则跳转）指令代替CMP （比较）和BLE （若小于则跳转）两条指令，既减小代码尺寸，又加快了运行ARM速度。

(3)使用inline 函数
ARM C 支持 inline 关键字，如果一个函数被设计ARM成一个inline 函数，那么在调用它的地方将会用函数体来替代函数调用语句，这样将会彻底省去函数调用的开销。使用inline 的最大缺点是函数在被频繁调用时，代码量将增大。

1.2 处理器相关的优化ARM方法
(1)保持流水线畅通
从前面的介绍可知，流水线延迟或阻断会对处理器的性能造成影响，因此应该尽量保持流水线畅通。流水线延迟难以避免，但可以利用延迟周期进行其它ARM操作。[page]

LOAD/STORE 指令中的自动索引（auto-indexing）功能就是为利用ARM流水线延迟周期而设计的。当流水线处于延迟周期时，处理器的执行单元被占用，算术逻辑单元ARM（ALU ）和桶形移位器却可能处于空闲状态，此时可以利用它们来完成往基址寄存器上加一个偏移量的操作，
供后面的指令使用。例如：指令 LDR R1, [R2], #4 完成 R1= *R2 及 R2 += 4 两个操作，是后索引（post-indexing）的例子；而指令 LDR R1, [R2, #4]! 完成 R1 = *(R2 + 4) 和 R2 +=4 两个操作，是前索引（pre-indexing）的例子。

流水线阻断的情况可通过循环拆解等方法加以改善。一个循环可以考虑拆解以减小跳转指令在循环指令中所占的比重，进而提高代码效率。下面以一个内存复制函数加以ARM说明。

void memcopy(char *to, char *from, unsigned int nbytes)
{
while(nbytes--)ARM
*to++ = *from++;
}

为简单起见，这里假设nbytes 为16 的ARM倍数（省略对余数的处理）。上面的函数每处理一个字节就要进行一次判断和跳转，对其中的循环体可作如下拆解：

void memcopy(char *to, char *from, unsigned int nbytes)
{
while(nbytes) {
*to++ = *from++;
*to++ = *from++;ARM
*to++ = *from++;
*to++ = *from++;
nbytes - = 4;
}
}

这样一来，循环体中的指令数增加了，循环次数却减少了。跳转指令ARM带来的负面影响得以削弱。利用ARM 7 处理器32 位字长的特性，上述代码可进一步作如下调整：

void memcopy(char *to, char *from, unsigned int nbytes)ARM
{
int *p_to = (int *)to;
int *p_from = (int *)from;
while(nbytes) {
*p_to++ = *p_from++;
*p_to++ = *p_from++;
*p_to++ = *p_from++;
*p_to++ = *p_from++;
nbytes - = 16;
}
}
经过优化后，一次循环可以处理16 个字节。跳转指令带来的影响ARM进一步得到减弱。不过可以看出，调整后的代码在代码量方面有所增加。

(2)使用寄存器变量
CPU 对寄存器的存取要比对内存的存取快得多ARM，因此为变量分配一个寄存器，将有助于代码的优化和运行效率的提高。整型、指针、浮点等类型的变量都可以分配寄存器；一个结构的部分或者全部也可以分配寄存器。给循环体中需要频繁访问的变量分配寄存器也能在
一定程度上提高程序效率。

1.3 指令集相关的优化方法
有时可以利用ARM7 指令集的特点对程序ARM进行优化。
(1)避免除法
ARM 7 指令集中没有除法指令，其除法是通过调用C 库函数实现的。一个32 位的除法通常需要20~140 个时钟周期。因此，除法成了一个程序效率的瓶颈，应尽量避免使用。有些除法可用乘法代替，例如： if ( (x / y) > z)可变通为 if ( x > (y × z)) 。在能满足精度，且存储器空间
冗余的情况下，也可考虑使用查表法代替除法。当除数为2 的ARM幂次方时，应用移位操作代替除法。

(2)利用条件执行
ARM 指令集的一个重要特征就是所有的指令均可包含一个可选的条件码。当程序状态寄存器（PSR ）中的条件码标志满足指定条件时，带条件码的指令才能执行。利用条件执行通常可以省去单独的判断ARM指令，因而可以减小代码尺寸并提高程序效率。

(3)使用合适的变量类型
ARM 指令集支持有符号/ 无符号的8 位、16 位、32位整型及浮点型变量。恰当的使用变量的类型，不仅可以节省代码，并且可以提高代码运行效率。应该尽可能地避免使用char、short 型的ARM局部变量，因为操作8 位/16 位局部变量往往比操作3 2 位变量需要更多指令，请对比下列3 个函数和它们的汇编代码。

intwordinc(inta) wordinc
{ ADD a1,a1,#1
return a + 1; MOV pc,lr
} shortinc
shortshortinc(shorta) ADD a1,a1,#1
{ MOV a1,a1,LSL #16
return a + 1; MOV a1,a1,ASR #16ARM
} MOV pc,lr
charcharinc(chara) charinc
{ ADD a1,a1,#1
return a + 1; AND a1,a1,#&ff
} MOV pc,lr
可以看出，操作3 2 位变量所需的指令要少于操作8位及16 位变量。 [page]

1.4 存储器相关的优化方法
(1)用查表代替计算
在处理器资源紧张而存储器资源相对富裕的情况下，可以用牺牲存储空间换取运行速度的办法。例如需要频繁计算正弦或余弦函数值时，可预先将函数值计算出来置于内存中供以后ARM查找。

(2)充分利用片内RAM
一些厂商出产的ARM 芯片内集成有一定容量的RAM，如Atmel 公司的AT91R40807 内有128KB 的RAM，夏普公司的 LH75400/LH75401 内有32KB 的RAM。处理器对片内RAM 的访问速度要快于对外部RAM 的访问，所以应尽可能将程序调入片内 RAM 中运行。若因程序太大无法完全放入片内RAM ，可考虑ARM将使用最频繁的数据或程序段调入片内RAM 以提高程序运行效率。

1.5 编译器相关的优化方法
多数编译器都支持对程序速度和程序大小的优化，有些编译器还允许用户选择可供优化的内容及优化的程度。相比前面的各种优化方法，通过设置编译器选项对程序进行优化不失为一种简单有效的途径。

2 代码尺寸优化
精简指令集计算机的一个重要特点是指令长度固定，这样做可以简化指令译码的过程，但却容易导致代码尺寸增加。为避免这个问题，可以考虑采取以下措施来缩减程序ARM代码量。

2.1 使用多寄存器操作指令
ARM 指令集中的多寄存器操作指令LDM/STM 可以加载/ 存储多个寄存器，这在保存/ 恢复寄存器组的状态及进行大块数据复制时非常有效。例如要将寄存器 R4~R12 及R14 的内容保存到堆栈中，若用STR 指令共需要10 条，而一条STMEA R13!, {R4

关键字：ARM 程序设计优化策略引用地址：ARM程序设计优化策略与技术

上一篇：基于FPGA和ARM的彩色图像处理系统
下一篇：AD7888与S3C2410的SPI接口及Linux下嵌入式驱动的实现

推荐阅读最新更新时间：2024-03-16 12:56

ARM·指令集

【本章内容】【跳转指令】 1）B WAITA 跳到WAITA编号处； B 0x1234 跳到0x1234地址处；（一般用于子程序没有返回的时候） 2）BL label （LR=PC-4，PC=label）【数据处理指令】 1）数据传送指令 MOV R11，#0xF000000B MOV R0, R1 MOVS R3，R1，LSL #2 MOV PC， LR 2）算数运算指令 ADDS R1，R1，#1020 ADD R1，R1，R2, LSL #2 SUBS R0, R0 ,#240 SUBS R2

[单片机]

华为及四对手：谷歌、ARM、英特尔、高通

美国的一纸禁令让华为迎来了它的危情时刻，ARM、谷歌、高通、英特尔等美国公司相继被爆出将与华为终止合作。失去ARM相当于斩断芯片源头，甚至将影响到华为的备胎计划，华为海思设计的多款芯片都是基于ARM机构。失去谷歌华为失去了对安卓操作的系统的全部使用权限，华为只能使用AOSP继续开发新的安卓系统，不能使用其他谷歌服务如Gmail、Google Play、YouTube等。失去高通，“华为”品牌和“荣耀”品牌手机产品线由于采用高通提供的调制解调器芯片，将受到一定影响。失去英特尔，华为PC业务由于使用其处理器将会受到不小冲击。棋至此局，华为危机应当何解？ 5月22日，任正非签发一封电邮《不懂战略退却的人，就不会战略进攻》，进

[手机便携]

华为及四对手：谷歌、<font color='red'>ARM</font>、英特尔、高通

ARM MOV和 LDR指令关系

ARM是RISC结构，数据从内存到CPU之间的移动只能通过L/S指令来完成，也就是ldr/str指令。比如想把数据从内存中某处读取到寄存器中，只能使用ldr。 ARM是RISC结构，数据从内存到CPU之间的移动只能通过L/S指令来完成，也就是ldr/str指令。比如想把数据从内存中某处读取到寄存器中，只能使用ldr 例： ldr r0, 0x12345678 就是把0X12345678这个地址中的值存放到r0. 而mov不能干这个活，mov只能在寄存器之间移动数据，或者把立即数移动到寄存器中，这个和X86这种CISC架构的芯片区别最大的地方。 X86中没有ldr这种指令，因为X86的mov指令可以将数据从内存中移动到

[单片机]

ARM汇编条件码

操作码条件码助记符标志含义 0000 EQ Z=1 相等 0001 NE(Not Equal) Z=0 不相等 0010 CS/HS(Carry Set/High or Same) C=1 无符号数大于或等于 0011 CC/LO(Carry Clear/LOwer) C=0 无符号数小于 0100 MI(MInus) N=1 负数 0101 PL(PLus) N=0 正数或零 0110 VS(oVerflow set) V=1 溢出 0111 VC(oVerflow clear) V=0 没有溢出 1000 HI(HIgh) C

[单片机]

基于ARM处理器S3C2440的VGA显示系统设计

　　目前很多SOC厂商的微处理器芯片都集成了LCD控制器，如三星公司的S3C2410.S3C2440，Intel的Xscale系列等。大多数嵌入式系统也采用流行的LCD显示技术。但是在需要大屏幕显示、对分辨率要求不高的场合，如车间、厂房，采用大屏幕LCD则成本过高。另一方面，VGA显示技术因为技术发展成熟，成本低廉，仍在被大量使用，直到今天它仍是所有显示终端最为成熟的标准接口。如果让嵌入式处理器直接支持VGA显示器，则能很大地利用现有资源，节约系统成本。　　1 基于S3C2440的VGA显示技术分析　　通过分析VGA显示技术的时序逻辑与S3C2440内部集成LCD控制器驱动TFT LCD的时序逻辑，找出它们的共同点，分析在

[单片机]

基于<font color='red'>ARM</font>处理器S3C2440的VGA显示系统设计

基于ARM和VxWorks实现自动彩信发送的嵌入式系统

在arm微处理器硬件平台上，应用windriver公司的tornado集成开发环境，实现基于vxworks的自动发送彩信的嵌入式应用系统。该系统使用现有cdma网络，根据设定的参数发送彩信到特定的移动终端用户。随着嵌入式应用的发展和16/32位risc处理器技术的成熟，以及支持各种高端处理器的嵌入式操作系统的涌现和完善，嵌入式无线设备可以利用cdma网络实现许多新的应用。自动发送彩信的嵌入式系统就是这种新应用之一，在特定的条件下，系统自动发送彩信到指定的移动通信终端；该应用系统是由用户根据要求设定触发条件的自动发送彩信系统，当满足触发条件时，设备会自动控制捕获、压缩图像部件拍摄外部图像，经过模数转换、数字压缩等处理后，经处理器

[单片机]

基于<font color='red'>ARM</font>和VxWorks实现自动彩信发送的嵌入式系统

ARM处理器Linux下浮点运算单元运用

1). 浮点运算单元（FPU）简介 Float Point Unit，浮点运算单元是专用于浮点运算的协处理器，在计算领域，例如三角函数以及时域频域变换通常会用到浮点运算。当CPU执行一个需要浮点数运算的程序时，有三种方式可以执行：软件仿真器（浮点运算函数库）、附加浮点运算器和集成浮点运算单元。区别于以往的ARM9处理器，目前基于Cortex构架的ARM处理均集成了浮点运算单元。如Nvidia Tegra 2, Tegra 3和 NXP/Freescale i.MX 6集成了VFPv3浮点运算单元，NXP/Freescale i.MX 7 则集成了VFPv4浮点运算单元。ARM 浮点架构（VFP）为半精度、单精度和双精度浮

[单片机]

65-Uboot的烧写(基于ARM9内核的2410开发板)

[嵌入式]