AES算法中S-box和列混合单元的优化及FPGA实现-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

　　美国国家标准与技术局(National Institute of Standard and Technology，NIST)于1997年1月提出发展AES(Advanced Encryption Standard)加密算法，并于同年9月12日推出AES的早期基本算法。在研究了一系列早期算法之后，Rijndael算法被确定为先进加密标准(Advanced Encryption Standard，AES)。由于其较高的保密级别，AES算法被用来替代DES和3-DES，以适应更为严苛的数据加密需要。

　　与此同时，市场迫切需要AES的FPGA和ASIC的硬件解决方案，因为其与用软件实现相比更安全而且更省电。在一些应用，如：信用卡，手机，PDA等中，硬件的复杂度是影响成本和能耗的一个非常重要的因素。因此，在加密和解密中都非常需要优化AES的主要操作部分。在AES算法中，S-box是惟一的非线性单元，在加密解密，特别是字节替代和逆字节替代操作时需要分别执行S-box和逆S-box。建立一个16×16的S-box，以往通常采用查找表的方式实现，占用大量硬件资源。因此，对S-box进行优化是实现高效AES的重要步骤。

　　在此首先通过在S-box和逆S-box中共用一个look-up列表，简化非线性单元的复杂度，然后通过选择合适的即约多项式，进行域GF(28)到GF(24)的同构映射，对S-box的算法进行优化，并采用组合逻辑电路实现，使优化后的S-box在同等频率条件下较显著地减少了硬件资源的消耗。同时介绍了一种减小列混合(MixColumn)单元硬件复杂度的方案，可以明显地减少列混合单元的设计面积。

　　1 S-box的优化设计

　　在AES标准算法中定义了两个较大的列表。S-box和逆S-box。将S-box用于两个应用：字节替代和密钥扩展。而逆S-box则用于逆字节替代。这两个列表是不相同的，因此必须建立两个不同的ROM(256×8 b)，用以存储这两个列表。另外，在AES设计中使用平行结构，这就需要用到多个列表，这样会使硬件过于复杂，需要对其进行优化。以下主要对S-box模块进行结构优化。

　　1.1 S-box和逆S-box的组合

　　在一个高速128 b的AES设计中，一般需要总共20个S-box模块和16个逆S-box模块。其中，16个S-box模块用于实现字节替代的功能，4个S-box用于实现密钥扩展的功能，而16个逆S-box模块用于实现逆字节替代功能。在这种情形下，如果字节替代和逆字节替代时使用不同的列表，就会占用大量的硬件资源。所以非常需要一种减少硬件复杂性的方法。

　　就如AES标准所描述的那样，S-box的操作过程可以表示为：

　　因为multiplicative_inverse(乘法求逆)是一个相当复杂的方程，最常用的实现S-box的方法是运用look-up列表来由x得到y。等式(1)的逆等式如下：

　　因为multiplicative_inverse-1和multiplicative_inverse是相同的，所以等式(3)可以表述为：

[page]

　　最后，必须找到M-1，即矩阵M的有限域逆矩阵。由有限域逆矩阵的运算方法可知，可以计算出矩阵M的逆矩阵，命名为M’，如式(5)所示：

　　在式(1)和式(6)中，只使用了一个普通的look-up列表，从而将S-box和逆S-box集成，大大减少了字节替代和逆字节替代的硬件需求。图1展示了集成的S-box／逆S-box模块，可应用于AES的加密和解密。

　　1.2 S-box单元中乘法求逆电路的优化

　　由第1.1节可知，S-box盒的生成电路由加密仿射电路(实现out=(in+c)M-1等式功能)，解密仿射电路(实现out=in·M+c等式功能)以及乘法求逆电路三个模块组成。要减少组合逻辑的复杂度，需要对乘法求逆电路进行优化。下面说明求逆电路的优化过程。

　　S-box硬件实现时的主要部件是乘法求逆。在有限域GF(28)上，乘法求逆是一种相当复杂的函数，直接在域GF(28)上生成S-box盒，组合逻辑复杂度高，会使电路中逻辑电路的门数大大增加。根据有限域的性质，利用域GF(28)与GF[(24)2]的同构变换，把GF(28)上的求逆转化在GF[(24)2]上的求逆运算，从而生成S-box单元，可以降低逻辑关系运算的复杂度，优化S-box的面积。

　　所采用有限域GF(28)上的乘法求逆电路模块优化过程如图2所示。优化的乘法求逆过程可表述如下：

　　(1)通过线性变换T将GF(28)的输入X映射到域GF(24)上的元素b，c；

　　(2)构建相应的域GF(24)的一次多项式，定义域GF(24)上的加法、乘法和求逆运算。利用域GF(24)上的加法、乘法和求逆运算，得到域GF(24)上元素b，c的逆元素p，q；

　　(3)构建线性变换T-1，将域GF(24)上的元素p，q映射到域GF(28)上，得到域GF(28)上的元素x的逆元素y=T-1(p，q)。

[page]

　　由有限域的知识可知，复合域GF[(24)2]中每个元素都可表示为系数在GF(24)上的一次多项式bx+c。设定义有限域GF[(24)2]的乘法的二次不可约多项式x2+Ax+B，可验证此时GF[(24)2]中的任一元素bx+c的乘逆元素是：

　　式中：(b2B+bcA+c2)-1是b2B+bcA+c2在GF(24)上的乘法逆元。各部分的逻辑实现过程可描述如下：

　　(1)有限域GF(28)到复合域GF[(24)2]映射。通过GF(28)上的即约多项式p(x)=x2+Ax+B构造线性变换T，根据式(8)将GF(28)的输入x映射到GF(24)上的元素b，c：

　　式中：B是GF(24)上的常量元素；T是一个8×8的矩阵，矩阵的元素是0或1，T矩阵由B的取值决定；A取1，B取8；

　　(2)GF[(24)2]到GF(28)的逆映射。构造线性变换T-1，GF(24)上的逆p，q映射到GF(28)上的逆元素y，如式(10)所示。其中，线性变换T-1和乘法求递步骤(1)中的线性变换T满足：TT-1=E。

　　(3)通过域GF(24)上的运算，求b，C的逆p，q。首先构建GF(24)，q(x)=x4+x+1作为域GF(24)上的本源多项式，a(x)，d(x)，e(x)∈GF(24)。其中，a(x)=a3x3+a2x2+a1x+a0，d(x)=d3x3+d2x2+d1x+d0，e(x)=e3x3+e2x2+e1x+e0定义域GF(24)上的加法、乘法、逆运算。

　　①加法为按位异或。

　　②乘法为多项式相乘后用q(x)取模，按公式e(x)=a(x)œ⊗d(x)mod q(x)进行运算；

　　③求逆根据公式公式a·a-1=1 mod q(x)，计算GF(24)上元素a的逆a-1；

　　构造GF(24)上的一次多项式bx+c，并利用上述GF(24)上的加法、乘法和求逆运算进行运算，得到GF(24)上的元素b，c的逆p，q，由式(7)可得：

　　p，q的计算是S-box中最复杂的逻辑运算，占用了大量的逻辑关系，关于p，q的分量元素计算是由上述算法中的分量元素代入式(13)、式(14)求得。

　　在这种设计方案中，求逆运算模块中所选用的即约多项式p(x)和本源多项式q(x)不同，减低了求逆模块的复杂度。根据理论分析，本文中用到的p(x)和q(x)不会减低AES算法的安全性。[page]

　　2 列混合单元的优化设计

　　在列混合(MixColumn)和逆列混合(InvMixColumn)的操作中，由以下两式定义了两个主要操作：

　　将式(15)和式(16)所做的操作及结果列于表1中，由步骤1～步骤5处理的结果得到outx，接着由outx和w8得到outy。因此，在执行过程中，操作所用到的硬件资源及其所得结果可以应用到步骤9，步骤10中。如图3所示，这种新型结构(字节-列混合模块)仅需8个加法器和4个乘法器。与原方案相比，此设计大大减少了硬件复杂度并显著节省了资源的消耗。

　　图3中：Xt模块(AES中的乘法器)的计算公式为：

　　更进一步，会发现，要建立一个全局的逆选择列混合模块，需要将4个字节一列混合模块集成在一起，形成一个全新的字一列混合模块(Word_MixColumn模块)，如图4所示。

　　这种模块设计可以通过部分分享硬件来同时实现列混合和逆列混合的功能，实现了硬件资源的节省。[page]

　　3 综合结果

　　在同等频率要求的前提下，对S-box及列混合单元进行了优化，目的是减小设计面积。优化后的算法在ModelSimSE 6.2b下进行仿真，并在Xilinx Spartan 3系列FPGA上进行综合验证，时钟频率达到166 MHz，占用3 212个基本逻辑门(一个基本逻辑门等效于两输入／输出的与门)，与参考文献[1]中方法相比节约52％。由于本文中S-box和InvS-box共用求逆电路，与文献[2]中的优化方法相比硬件资源节约66％。

　　其中硬件复杂度为门级电路个数。

　　4 结语

　　在AES的经典算法中S-box常常采用查找表的形式来实现，这样会占用大量的硬件资源。本文采用S-box与逆S-box组合以及GF(28)到GF(24)同构变换的方法对S-box进行优化，同时，对AES中较复杂的列混合模块进行了集成优化。优化后的方案在不降低密码算法安全性的前提下，较好的降低了硬件复杂度，非常适用于信用卡以及其它对硬件规模要求严格的应用。

关键字：FPGA AES算法 S-box 引用地址：AES算法中S-box和列混合单元的优化及FPGA实现

上一篇：CAD/CAM软件技术及其在数控机床中的应用
下一篇：28nm Stratix V明年底量产，不准备走堆叠芯片之路

推荐阅读最新更新时间：2024-05-02 21:13

一款四象限 DC/DC 开关稳压器的实现

引言在很多电子系统中，有必要为特定类型负载提供双极性（正和负）电压或电流。需要双极性电压/电流的负载包括FPGA体偏置应用、热电冷却器、DC电动机以及其他很多类型的应用。有很多传统方法可为负载提供双极性电压/电流。H桥式设计经常使用，但是要求负载的两个端子均不能直接接地。负载的两个端子均须在正电源轨和地之间摆动，为了滤除这种斩波波形，通常会给负载串联一个电感器。负载不能直接接地可能使整个系统的机械及电气设计复杂化。H桥式方法还需要4个开关组件和更加复杂的控制方法。有些负载有负端子，这种端子不能施加高偏压（相对于地），例如：FPGA反向偏压应用。另一种传统方法是建立两个电源轨，一个正轨和一个负轨。人们使用各种不同的电路在稳压

[电源管理]

Altera发布集成收发器的40nm FPGA系列

Altera公司发布集成了收发器的两款FPGA系列新产品。新增的Stratix IV GT和Arria II GX 40-nm FPGA系列与Stratix IV GX FPGA和HardCopy IV GX ASIC一起进一步拓展了业界全系列收发器FPGA和ASIC解决方案产品组合。Altera系列产品提供的收发器速率覆盖了155 Mbps至11.3 Gbps，满足了从对成本敏感的视频摄像机到超高性能骨干系统等多种应用需求。 Arria II GX、Stratix IV GT、Stratix IV GX FPGAs和HardCopy IV GX ASIC采用了通用收发器技术，由一套通用开发工具为

[嵌入式]

2024年FPGA将如何影响AI？

随着新一年的到来，科技界有一个话题似乎难以避开：人工智能。事实上，各家公司对于人工智能谈论得如此之多，没有热度才不正常！在半导体领域，大部分对于AI的关注都集中在GPU或专用AI加速器芯片（如NPU和TPU）上。但事实证明，有相当多的组件可以直接影响甚至运行AI工作负载。FPGA就是其中之一。对于那些了解FPGA灵活性和可编程性的人来说，这并不令人惊讶，但对许多其他人来说，这两者之间的联系可能并不明显。问题的关键在于通过软件让一些经典的AI开发工具（如卷积神经网络（CNN））针对FPGA支持的可定制电路设计进行优化。 FPGA还可以创建多个并行计算流水线（在概念上类似于GPU提供的功能），这对于作为众多AI算法核心的

[嵌入式]

2024年<font color='red'>FPGA</font>将如何影响AI？

Enclustra瑞苏盈科：极速开启您的FPGA项目

FPGA正在征服越来越多的应用领域，考虑到它巨大的并行性能、灵活性和可伸缩性，这一点也不足为奇。从简单的接口设备到使用集成ARM处理器和多千兆接口完成可编程芯片系统开发，FPGA的可能性几乎是无限的。基于一个标准的FPGA或SoC核心板模块（无论是基于Intel或Xilinx FPGA或SoC）结合使用经过测试和验证的IP核，运用FPGA技术快速而容易。进入FPGA科技世界比你想象的要容易 FPGA技术是许多应用程序的可行选择，并提供了许多潜力，但许多人认为入门门槛很高，编程复杂而费力。然而，现在使用FPGA技术比以往任何时候都更容易，也更有吸引力。FPGA和SoC核心板

[嵌入式]

Enclustra瑞苏盈科：极速开启您的<font color='red'>FPGA</font>项目

基于FPGA的家居遥控设计

引言　　人们生活中的家用电器种类日益增多，遥控器的种类也随之增加，不同种类的遥控器之间一般不能相互替代，这给人们的生活带来诸多不便。　　各类遥控器功能大致相同，大多都有数字键、启动停止键、前进键、快进键、后退键，复杂的也就是增加几个功能键，现实生活中，由于用户的个体差异，特殊功能键的使用频率很低，甚至部分用户自始至终就从未使用过这类键，因此，这些键完全可以简化和归类使用，对于那些不易简化和归类的少量特殊功能键，可以通过开辟自定义按键区的方法予以解决。　　鉴于此，本文以单片机和大规模可编程门阵列FPGA为基础，以记录波形的思想设计了一款自学习式通用家居遥控器，又为原本无遥控功能的电灯、电扇、窗帘等设施追加了教练+学习+控

[工业控制]

基于FPGA视频图像的Canny算法加速器的设计

摘要：由于Canny算法自身的复杂性，使得其做边缘检测的处理时间较长。针对这个问题，提出和实现了一种Canny算法的硬件加速功能。加速功能的设计是以FPGA为硬件基础，并采用了流水线技术来对系统的结构改进和优化。最后通过对有加速器和无加速器的系统分别做图像处理，并对统计时间对比分析。结果表明经过加速改进的系统相对节约了处理时间，并能实时高效地处理复杂图像的边缘。关键词：Canny算子；边缘检测；加速器；现场可编程门阵列 0 引言边缘检测是图像分析过程中非常基础和重要的研究领域，边缘提取的好坏将直接影响到后续处理的准确性和难易程度。用于边缘检测的方法有Roberts，Sobel，Laplace，Canny，Pre

[嵌入式]

FPGA 为三洋最新款家庭影院投影仪添彩

Altera 公司宣布，三洋电子有限公司在其 PLV-Z2000 1080p 家庭影院投影仪中采用 Cyclone ® II FPGA 和 Nios ® II 嵌入式处理器，进一步提高了家庭娱乐系统的图像质量。 Altera 的 FPGA 和嵌入式处理器组合方案的高级图像处理功能使三洋最新款家庭影院投影仪的对比度达到了 15,000:1 。利用 Altera 的解决方案，三洋等产品创新者提高了集成度，实现了更具价值的功能。在 2008 年 1 月 7 号至 10 号举行的拉斯维加斯消费类电子产品展 (CES) 上，三洋将展示其 PLV-Z2000 1080p 家庭影院投影仪。三洋电子有限公司工程部投影仪分部总经理 K.

[应用]

Xilinx FPGA在汽车电子上的应用

方案描述：本方案描述了 Xilinx FPGA 在汽车倒车显示上的应用。系统采用I2C实现对CMOS Sensor的控制，将采集的数据进行校正，阴影移除，缩放后通过TFT显示出来。使用Picoblaze实现对系统的灵活控制和算法运用，外挂SDRAM或Flash对图像进行存储。方案设计图：方案关键器件表：

[汽车电子]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■TI 有奖直播 | 使用基于 Arm 的 AM6xA 处理器设计智能化楼宇

■Follow me第二季第3期来啦！与得捷一起解锁高性能开发板【EK-RA6M5】超能力！

■报名直播赢【双肩包、京东卡、水杯】| 高可靠性IGBT的新选择——安世半导体650V IGBT

■30套RV1106 Linux开发板（带摄像头），邀您动手挑战边缘AI~