PCIe Gen3/Gen4接收端链路均衡测试—理论篇-电子工程世界

PCIe接口自从被推出以来，已经成为了PC和Server上最重要的接口。为了更高了数据吞吐率，PCI-SIG组织不断刷新接口标准，从PCIe 3.0的8GT/s数据速率，到PCIe 4.0的16GT/s数据速率，再到PCIe 5.0的32GT/x。PCI-SIG组织实现了在速率翻倍的同时，仍能保持使用普通的FR4板材和廉价接插件，主要源自两个方面的改进，一是使用128b/130b编码来代替8b/10b编码，使得编码效率大幅提高；另一个是使用动态均衡技术，来代替先前代的静态均衡技术。

这里聚焦于PCIe 3.0和4.0中的动态均衡技术，介绍其原理、实现及其相关的一致性测试。这样一种动态均衡技术，在spec中被称作“Link Equalization”（链路均衡，简称为LEQ）。本系列文章分上下两篇，本文理论篇主要介绍PCIe 3.0/4.0的链路均衡的工作原理，下一篇实践篇则侧重于链路均衡的测试和调试。

PCIe 3.0 & 4.0的链路均衡

在PCIe 3.0和4.0中的链路均衡技术相较于先前代要复杂得多，这样一种动态均衡技术可以分为两个方面进行讨论。

均衡特性方面：从这个方面来说，相对于先前代的均衡来说，3.0和4.0中的均衡技术的硬件性能指标要求更高了。

协议方面：为了实现动态地调整均衡设置，需要协议层的配合，这是通过PHY层的LTSSM状态机中的Recovery.Equalization子状态来实现的。

先来从均衡特性的角度来看看PCIe 3.0和4.0的均衡，如下展示了在PCIe 3.0/4.0中所使用的全部均衡技术，在Tx端有FFE（Feed Forward Equalizer，前馈均衡器）；在Rx端有：CTLE（Continuous Time Linear Equalizer，连续时间线性均衡器）和DFE（Decision Feedback Equalizer，判决反馈均衡器）。通过FFE和CTLE，可以去除大部分由ISI所引入的抖动；通过DFE可以进一步去除ISI，它还能去除部分的阻抗失配所造成的反射。通过这些均衡处理，就能够最大程度上地保证在接收端判决输入处将眼图打开。

除了上述这些均衡特性上的支持外，在协议层（LTSSM）中还规定需要通过协议的方式来动态调整链路上的均衡设定值，这整个过程称作链路均衡（Link Equalization，LEQ）。在链路均衡过程中：

本地端按照某个初始Tx EQ的设定来发送数据；

对端在接收到数据时，会根据误码率或信号质量来判断该Tx EQ是否合适；

若不合适，对端会通过协议向本地端请求一个新的Tx EQ值；

本地端在接收到这个请求值之后，会改变Tx EQ的值。

通过这一动态过程，就能够保证链路上的Tx EQ为最优值。与此同时，本地端和对端也会同时调整Rx EQ。通过动态地调整Tx EQ和Rx EQ，就能够灵活地适应不同的信道情况。

PCIe 3

图1 LEQ硬件实现的模块框图

发送端的均衡：FFE

在PCIe 3.0 & 4.0中使用的都是3-tap FFE，如图 2a所示。其中，为数字信号，建模时取值为±1；为FFE的抽头系数；为发送端的模拟信号输出。

PCIe 3

(a)FFE的模型框图 (b) FFE的模拟电压输出

图2 PCIe 3.0 & 4.0发送端所使用的3-tap的FFE

理想情况下的差分电压幅度有：23÷2=4种可能性，这四个电压幅度在PCIe标准中（如图 2b所示）分别被标记为Va，Vb，Vc，Vd。

其中，Vb被称作去加重电压（de-emphasis voltage），Vc被称作预冲电压（preshoot voltage）；Vd被称作最大幅度电压（boost voltage），PCIe标准中没有为Va取一个专门的名字。在此基础上，标准中通过三组比值来完备地描述FFE的性能：

若不加限制的来说，那么形成的组合有无穷多个。但并不是所有的组合在实际应用中都是合适的。其中一个最重要的约束条件就是：去加重电压Vb不能过小，过小的去加重电压会导致输出信号在接收端的眼高过低。因此通过BOOST比值对去加重地电压幅值进行限制：对于满摆幅的Tx输出，规范要求BOOST≤9.5dB；对于减摆幅的Tx输出，规范要求BOOST≤3.5dB。最终会形成一个如图 3类似的矩阵表，图中系数的粒度为1/24。在实际应用中可以是其他的粒度值，例如1/64；更小的粒度能够使系数空间的取值可能性更多，在LEQ调节时也更精细。

图3 发送端均衡的系数空间的矩阵表举例

鉴于系数空间上的取值可能性较多，PCI-SIG协会在开发协议的过程中，广泛地研究了在不同插入损耗下最优的系数取值组合；最后选定了若干个特定的系数取值组合，并把它们称作预设定值（preset），在实际的LEQ过程中，链路双方就可以先采用预设定值进行粗调；若还认为链路的均衡设置仍然没有达到最优，可以进一步通过系数空间的方式进行细调，最终达到速度和精度的平衡。

接收端的均衡：CTLE和DFE

在PCIe 3.0 & 4.0 基础规范中，并没有明确地规定接收端的结构是怎样的；而只是从测量的角度对接收端性能进行了规定。相反地，在规范中定义了一个行为级CTLE和行为级DFE。这些行为级模型可以作为设计指南；并且为了使得待测对象能够通过规范的要求，一般来说用户所设计的接收端性能至少要等于这些行为级模型的性能，可以强于这些行为级模型，但不能弱于这些行为级模型。

pcie 3 pcie 4

(b)

图4 行为级CTLE的频响曲线：(a) PCIe 3.0 (b) PCIe 4.0

发送端的输出在经过一段很长的FR4走线之后，仅仅使用CTLE，可能是不够的。因此在PCIe 3.0 & 4.0中，还使用了DFE的技术。在3.0中，使用1-tap的DFE，而在4.0，由于速率相对于3.0翻倍了；所以使用2-tap的DFE，以便移除更大的ISI。

与线性均衡器FFE和CTLE相比，DFE为一种非线性均衡器。DFE的基本想法是：若已经正确接收了之前的比特数据的话；那么先前的比特数据对当前比特所产生的影响就是已知的；从而我们就可以通过反馈的方式进行补偿，这样就能够进一步消除抖动和噪声的影响。不难看出这里的非线性体现在：反馈回来的信号是经过判决之后的数字信号；而判决电路是一种非线性电路。显然，反馈通路上的抽头数目越多，那么对抖动和噪声的消除可能就越好；这也就是为什么3.0中使用1-tap的DFE，而在4.0中使用2-tap的DFE。

(b)

图5 行为级DFE的结构：(a) PCIe 3.0 (b) PCIe 4.0

链路均衡过程

链路上的两端刚开始建立通信的时候，并不知道整个信道的物理特性是怎样的，例如插入损耗多大，是否有阻抗不连续等。由于PCIe 3.0和4.0的插入损耗允许的变化范围很大，一个静态的均衡设置并不能覆盖所有的情况。这样就需要链路上的双方根据当前物理信道的特性，来动态地调整均衡设置，使得均衡设置对于当前的物理信道来说是最优的。假设Port A和Port B是一个链路上的两端，那么链路均衡过程要做的事情有：

配置Port A和Port B的初始均衡设置；

配置从Port A Tx  Port B Rx这一方向的均衡设置；

配置从Port B Tx  Port A Rx这一方向的均衡设置；

下面我们以Port A Tx  Port B Rx这一方向来说明链路均衡时如何实现的。如图 6所示，在8GTs/或者16GT/s速率下的链路开始建立通信时，是以初始的未优化的TX EQ在发送TS1/TS2序列，并且Port A在TS1/TS2序列中表明其所用的TX EQ的值。

图6 LEQ: 本地端发送未经优化的初始TX EQ

当Port B Rx在接收到这些TS1/TS2序列时，芯片内部存在一块电路或者一套算法来评估当前的TX EQ是否合适，若认为不合适，就会如图7所示，发送TS1序列来请求一个新的TX EQ。

图7 LEQ：对端请求一个新的TX EQ

随后，Port A会接收到请求设置TX EQ的TS1序列，如图8所示，调整其TX端的FFE的设置。

图8 LEQ：本地正确地接收到了对端的请求，设置新的TX EQ

Port A在调整完Tx FFE的设置之后，如图9所示，会将新的TX EQ设置值更新到TS1/TS2的序列之中，发送到Port B端。若Port B仍然觉得这个时候的TX EQ不是最优，那么仍然会重复图中的2~4步骤，直到达到最优的TX EQ。当然上述过程并不能无限进行下去，必须要在大概32ms的范围进行完。

图9 LEQ：本地端告知对端已成功设置新的TX EQ

在上述2~4步骤的同时，Port B的RX端也在不停地调整其RX EQ，如图 10所示。如图6~图10中所讨论的，LEQ是基于请求-响应机制来完成动态均衡的。在PCIe的规范中，LEQ总共包含四个阶段：Phase 0、Phase 1、Phase 2、Phase 3。其中上行端口包含全部四个过程；而下行端口不包含Phase 0。

图10 LEQ：整个过程中同时调整RX EQ

通过图11不难看出，在LEQ过程中，上行端口和下行端口的行为是有区别的。以上描述的是在LEQ过程中链路上的双方如何调整Tx EQ。而对于Rx EQ，根据Base规范中的说明，在整个LEQ的过程、以及在后续正常工作的过程中，链路双方都可以一直调整Rx EQ。

PCIe LTSSM

图11 LEQ的状态跳转示意图

关键字：PCIe 引用地址：PCIe Gen3/Gen4接收端链路均衡测试—理论篇

上一篇：简化您的以太网设计，以太网PHY基础知识和选择过程
下一篇：安森美Quantenna Wi-Fi 6技术让联接更快、更广、更高效

推荐阅读最新更新时间：2024-11-12 18:13

基于Virtex UltraScale+FPGA的可配置的HES-HPC-HFT-XCVU9P PCIe 卡

高频交易，这个名词可能对你并不陌生，它是指那些人们无法利用的，极为短暂的市场变化中寻求获利的自动化程序交易，高频交易瞬息万变，而决胜的关键就在于快。今天小编就给大家介绍一款Aldec最新的专门用于高频交易的PCIe卡，由小编前面的介绍，大家一定也只知道这款卡的主打性能就是速度快，没错，这也就不难理解为什么Aldec的新型的面向高频交易的HES-HPC-HET-XCVU9P PCIe卡采用Xilinx Virtex UltraScale + VU9P FPGA 的结构。这款PCIe卡在速度上与任何可重编程或重配置的技术所能达到的速度一样快。Virtex UltraScale + FPGA直接链接到主板上所有的关键的高速接口

[嵌入式]

PCIe Gen3/Gen4接收端链路均衡测试—实践篇

聚焦于PCIe 3.0和4.0中的动态均衡技术，本文介绍其原理、实现及其相关的一致性测试，这种动态均衡技术被称作“Link Equalization”（链路均衡，简称为LEQ）。本系列文章分上下两篇，本文是下篇实践篇，重点介绍Rx链路均衡的测试和调试，泰克公司的自动化软件为此提供了业界最优的解决方案。接收端链路均衡测试（Rx LEQ）在PCIe 2.0的时代，通常只要保证了发送端的信号质量，那么整个系统也就能够正常工作；因此接收端测试并不是必测项。但在PCIe 3.0/4.0中，由于速率成倍的增加；并且又经过长走线的传输，因此在接收端采用了复杂的均衡技术；因此在PCIe 3.0/4.0中接收端测试属于必测项。

[网络通信]

<font color='red'>PCIe</font> Gen3/Gen4接收端链路均衡测试—实践篇

数据中心再加速闪迪推出新一代PCIe应用程序加速器

全新PCIe闪存加速卡提供1TB到6.4TB容量，使用闪迪NAND在各种工作负载间提升高达4倍的性价比和2倍的容量。（中国上海，2015年4月29日）全球领先的闪存存储解决方案供应商闪迪公司(纳斯达克股票代码：SNDK)今天宣布推出新一代Fusion ioMemoryTMPCIe应用程序加速器以显著改善性能，同时帮助推动数据中心整合和实现更低的总体拥有成本。这款全新Fusion ioMemory PCIe应用程序加速器由闪迪NAND闪存和虚拟存储层(VSL)数据访问加速软件构成，在提升高达4倍性价比的同时，其产品订价相比上一代Fusion ioDrive 2下降达61%。闪迪企业存储解决方案部门

[嵌入式]

PCIe 6之后，敢问路在何方

PCIe Express® 物理层先从 Gen 4.0 飞速发展到了 Gen 5.0，最后升级至 Gen 6.0，且 6.0 规范包含了开发硅芯片所需的一切。数据传输速率从 16 Gt/s 提升到 32 GT/s，Gen 6.0 更是增加到了 64 GT/s（每秒千兆传输速率）。而且，首次采用了PAM4多级信号调制技术，允许我们在单个单位时间内编码两位信息。借此，我们将 Gen 5.0 的数据传输速率增加了一倍。在今年的泰克创新论坛上，我有幸参加了一场小组讨论，与我一同参与的还有两位业内专家：新思科技 (Synopsys) 的 Madhumita Sanyal 和安立公司 (Anritsu) 的 Hiroshi Goto。

[测试测量]

<font color='red'>PCIe</font> 6之后，敢问路在何方

Intel 选用LSI PCIe闪存技术加速数据库和大数据应用

2013年4月11日，北京 – LSI公司（NASDAQ：LSI）今天宣布LSI®Nytro™ MegaRAID®技术将成为Intel® RAID产品系列的一部分，意味着LSI与OEM厂商Intel公司的合作进一步加强。客户正不断寻求新的方法，希望能够在加速存储性能的同时，对已有硬盘和直连存储（DAS）基础设施的投资进行优化，这使得闪存技术正快速在企业服务器中得到普及。LSI Nytro MegaRAID技术的独特之处在于，能够将智能缓存软件与服务器端PCIe®闪存及LSI领先的双核片上RAID（ROC）技术进行完美结合，从而实现简单、透明的应用加速效果和针对DAS 环境的RAID数据保护功能。 Intel 企业平台和服务部

[网络通信]

PCI总线和PCIE总线的差异

由于公司产品一直以X86架构为基础发展，在前几年中一直受到ASIC、NP架构等厂商的攻击，但是随着技术的发展，在PCI-E架构出现后，效率的瓶颈得以突破。　　最初PCI总线是32bit，33Mhz，这样带宽为133Mbps。　　接着因为在服务器领域传输要求Intel把总线位数提高到64，这样又出现了2种PCI总线，分别为64bit/33Mhz和64bit/66Mhz，当然带宽分别翻倍了，为266Mbps和533Mbps，这个比较通常的名称应该是pci-64，但这好像是intel自己做的，没有行业标准。　　稍后一段时间，在民用领域，单独开发出了AGP，32bit，66Mhz，这样带宽为266Mbps，再加上后来AGP2.

[模拟电子]

热门资源推荐
热门放大器推荐

小广播