Achronix在其先进FPGA中集成2D NoC以支持高带宽设计(WP028)

发布者:EE小广播最新更新时间:2022-04-21 来源: EEWORLD关键字:Achronix  FPGA  高带宽 手机看文章 扫描二维码
随时随地手机看文章

摘要


随着旨在解决现代算法加速工作负载的设备越来越多,就必须能够在高速接口之间和整个器件中有效地移动高带宽数据流。Achronix的Speedster®7t独立FPGA芯片可以通过集成全新的、高度创新的二维片上网络(2D NoC)来处理这些高带宽数据流。Achronix的FPGA中特有的2D NoC实现是一种创新,它与用可编程逻辑资源来实现2D NoC的传统方法相比,有哪些创新和价值呢?本白皮书讨论了这两种实现2D NoC的方法,并提供了一个示例设计,以展示与软2D NoC实现相比,Achronix 2D NoC是如何去提高性能、减少面积并缩短设计时间。


介绍


Achronix为其Speedster7t系列FPGA完全重新设计了片上通信架构,通过集成创新的2D NoC来适应高带宽数据流的需求。在该FPGA器件的外围,这个2D NoC连接到所有高速接口:包括多个400G以太网、PCIe Gen5、GDDR6和DDR4/5端口。在该FPGA内的可编程逻辑阵列上部署了一系列高速行和列通道,它们分别向FPGA可编程逻辑阵列的水平和垂直方向分配网络流量。除了这些行和列之外,在NoC的每一行和每一列交叉的位置还有发送点和目标NoC访问节点(NAP)。这些NAP充当NoC和位于可编程逻辑阵列中的资源之间的源或目的地。


为了将Achronix FPGA中内置的2D NoC,与使用传统方法在可编程逻辑阵列中创建的NoC进行比较,为此我们评估了几种软NoC设计;最后,基于同行评审和FPGA结构的可移植性,我们选择了米兰理工学院的软2D NoC设计。这种软NoC在单向网状网络(mesh)中实现了虫洞前瞻预测切换。在实施时,它需要每个mesh节点上的多个存储器来存储和转发流控制单元(flit)。


为了量化片上2D NoC实现模式和使用逻辑阵列资源的软实现模式之间的差异,首先创建了一个实例化AlexNet 2D卷积的19个实例设计,然后在完整的2D NoC设计之间比较了三个主要指标:所需资源、设计性能和设计时间(创建设计的时间以及在工具中编译设计的时间)。其结果是在所有三种情况下,集成Achronix 2D NoC的性能都明显优于软实现。


2D NoC减少使用的资源


为了比较两种不同的2D NoC设计,两种2D NoC都与现有的2D卷积(conv2d)设计相结合。conv2d设计对输入图像执行AlexNet 2D卷积。此conv2d设计需要一个或两个AXI-4连接:一个用于从内存读取,一个用于写入内存,或者一个共享的AXI-4执行读取和写入。为了实现与软NoC的最佳集成,选择了单个共享AXI-4接口,conv2d模块的实例位于每个mesh节点。然后,软NoC启用了GDDR6存储接口的数据入口和出口——在软NoC中,内存接口连接到第20个mesh节点上;而在内置式NoC中,这种连接已经存在。在整个设计中,从GDDR6到每个conv2d节点都存在节点到节点通信,但conv2d节点之间不通信。


Achronix 2D NoC的设计细节


该设计有19个conv2d模块实例,每个实例都访问GDDR6存储器。第20个实例是空闲的,因为GDDR6接口直接连接到集成的2D NoC。80个可用的NoC接入点(NAP)中有38个用于连接到conv2d实例。每个conv2d实例使用64个机器学习处理器(MLP),它在垂直方向覆盖两个NAP。由于这种部署是针对内置2D NoC,所以采用双AXI-4方法连接conv2d模块。下表列出了本设计中使用的资源。


表1:Achronix 2D NoC使用的资源

 image.png


使用Achronix FPGA集成的2D NoC,可为设计布局产生了一种不凌乱的、可重复的结构,并且只消耗了不到一半的器件资源。下面是AC7t1500器件中资源使用的平面图。

 

image.png

图1:在AC7t1500中使用Achronix 2D NoC布局实例


软2D NoC的设计细节


该设计被配置为5 × 4规模mesh,具有19个conv2d模块实例,每个实例都连接到一个软NoC节点。其第20 mesh节点是为GDDR6接口预留的。因此,需要更多的逻辑资源来管理软2D NoC结构。此实现还需要每个节点上的存储,以便存储flit并将其转发到下一个节点。结果是显著提高了资源的使用量,以及在器件上的不规则布局。下表列出了使用的资源;下图为AC7t1500所用资源的平面图。


表2:软2D NoC使用的资源

 image.png

 

image.png

图2:使用软2D NoC布局实例


2D NoC提高性能


如前所述,通过使用Achronix 2D NoC,conv2d设计产生了规则的资源布局,从而形成规则的布线。减少了逻辑资源使用就减少了拥塞,因为需要布线的逻辑更少。该解决方案实现了最高565 MHz的频率,关键路径包含在conv2d实例逻辑中。随着更多conv2d节点添加到设计中,最大频率不会降低。


下图显示了使用Achronix 2D NoC时产生的布线

 

image.png

图3:使用Achronix 2D NoC的cnv2d设计布线


使用软2D NoC解决方案会导致复杂且不规则的布线,同时时序也受到影响,因为需要深度LUT逻辑来选择软2D NoC中的适当路径。


此外,性能会随着mesh网络大小的增加而降低。使用2 × 3 mesh的设计可以达到94 MHz,而5 × 4 mesh只能达到82 MHz。关键路径包含在软NoC mesh网络中,而不是在conv2d逻辑中。如果花更多时间优化设计以提高性能,则可以进一步优化软2D NoC的时序。


下图显示了使用软2D NoC设计时生成的布线。

 

image.png

图4:使用软2D NoC时的cnv2d设计布线


2D NoC改善了带宽


Achronix的2D NoC使用运行速度在2 GHz的256位双向总线,每个conv2d实例连接到两个NAP,从而在一个节点上与GDDR6接口之间的连接可实现的最大带宽为512 Gbps。下面的框图显示了2D NoC和一个连接到本地conv2d实例的NAP的细节。

 

image.png

图5:Achronix的2D NoC和NAP


软2D NoC使用五路交叉开关(crossbar switch),其中一个端口与本地conv2d实例通信,而其他端口与网格中的下一个节点通信。该解决方案可以实现节点到节点连接的频率为82 MHz,从而在一个节点上形成最高为21 Gbps的GDDR6接口带宽。下面的框图显示了软2D NoC mesh中的一个交叉开关。

 

image.png

图6:软2D NoC交叉开关


2D NoC缩短了设计时间和工具运行时间


Achronix的2D NoC采用AXI-4标准与NAP通信,这是许多FPGA设计人员已经熟悉的接口标准。此外,2D NoC包括内置功能,例如跨时钟域逻辑、流量控制和地址解码等,这些功能不再需要包含在用户逻辑中。Achronix的2D NoC的全功能实现为用户省去了大量的设计工作,使设计人员能够专注于连接到2D NoC的加速器。


除了缩短设计时间外,使用Achronix片上2D NoC的设计比使用软2D NoC的设计使用更少的资源。结果是需要布局和布线的逻辑更少,从而使得工具的编译时间更短。例如,与使用软2D NoC的实现相比,使用Achronix片上2D NoC的设计布局和布线所需的时间不到一半。


结论


集成2D NoC的Speedster7t器件创新地带来了FPGA设计过程的根本转变。Achronix是第一家集成2D NoC的FPGA公司,它连接所有系统接口和FPGA逻辑阵列。这种新架构使Achronix FPGA器件特别适用于高带宽应用,同时显著提高了设计人员的工作效率。由于2D NoC管理着从设计在FPGA逻辑阵列中的数据加速器到高速数据接口之间的所有网络功能,因此设计人员只需设计他们的数据加速器并将它们连接到NAP接入点。与使用软2D NoC相比,设计人员可以受益于以下优点:


  • 降低逻辑资源占有率并提高FPGA的整体性能

  • 增加带宽

  • 减少对存储器的需求

  • 更快的设计时间和更短的工具编译时间


表3:Speedster7t 2D NoC与Soft 2D NoC的总结比较

 image.png


关键字:Achronix  FPGA  高带宽 引用地址:Achronix在其先进FPGA中集成2D NoC以支持高带宽设计(WP028)

上一篇:BittWare宣布合作伙伴计划,解决方案降低创新风险缩短上市时间
下一篇:网络边缘充满无限可能-低功耗FPGA和AI解决方案集合助力AI智能玩具发展

推荐阅读最新更新时间:2024-10-27 11:20

Achronix在其先进FPGA中集成2D NoC以支持带宽设计(WP028)
摘要 随着旨在解决现代算法加速工作负载的设备越来越多,就必须能够在高速接口之间和整个器件中有效地移动高带宽数据流。Achronix的Speedster®7t独立FPGA芯片可以通过集成全新的、高度创新的二维片上网络(2D NoC)来处理这些高带宽数据流。Achronix的FPGA中特有的2D NoC实现是一种创新,它与用可编程逻辑资源来实现2D NoC的传统方法相比,有哪些创新和价值呢?本白皮书讨论了这两种实现2D NoC的方法,并提供了一个示例设计,以展示与软2D NoC实现相比,Achronix 2D NoC是如何去提高性能、减少面积并缩短设计时间。 介绍 Achronix为其Speedster7t系列FPGA完全
[嵌入式]
<font color='red'>Achronix</font>在其先进<font color='red'>FPGA</font>中集成2D NoC以支持<font color='red'>高</font><font color='red'>带宽</font>设计(WP028)
Achronix针对数据中心应用推具有最高FPGA存储带宽的PCIe加速板
2016年6月21日,Achronix Semiconductor公司(Achronix Semiconductor Corporation)宣布:从即日起提供符合PCIe外形规格的全新Accelerator-6D加速板,它带有业内最高的单个现场可编程门阵列(FPGA)器件存储带宽,可用于实现针对高速数据中心加速应用的PCIe扩展卡。这款加速板集成了一片SpeedsterTM22i HD1000 FPGA器件,该器件拥有700,000个查找表并连接至6个独立的存储器控制器,从而可支持多达192 GB的存储资源和690 Gbps的总存储带宽。 HD1000上的每个动态随机存取存储器(DRAM)控制器都以1,600 MT/s的速率运
[嵌入式]
<font color='red'>Achronix</font>针对数据中心应用推具有最高<font color='red'>FPGA</font>存储<font color='red'>带宽</font>的PCIe加速板
利用搭载全域硬2D NoC的FPGA器件去完美实现智能化所需的带宽低延迟计算
随着大模型、高性能计算、量化交易和自动驾驶等大数据量和低延迟计算场景不断涌现,加速数据处理的需求日益增长,对计算器件和硬件平台提出的要求也越来越高。发挥核心器件内部每一个计算单元的作用,以更大带宽连接内外部存储和周边计算以及网络资源,已经成为智能化技术的一个重要趋势。这使得片上网络(Network-on-Chip)这项已被提及多年,但工程上却不容易实现的技术再次受到关注。 作为一种被广泛使用的硬件处理加速器,FPGA可以加速联网、运算和存储,其优点包括计算速度与ASIC相仿,也具备了高度的灵活性,能够为数据中心与边缘计算提供理想的数据处理加速;除此之外,FPGA还在传感器融合和输入数据流整理汇流等领域发挥关键作用,是智能化应用
[嵌入式]
英特尔发布行业首款集成带宽内存、支持加速的 FPGA
今天,英特尔宣布推出英特尔® Stratix® 10 MX FPGA,该产品是行业首款采用集成式高带宽内存 DRAM (HBM2) 的现场可编程门阵列 (FPGA)。通过集成 HBM2,英特尔 Stratix 10 MX FPGA 可提供 10 倍于独立 DDR 内存解决方案的内存带宽。凭借强大带宽功能,英特尔 Stratix 10 MX FPGA 可用作高性能计算 (HPC)、数据中心、网络功能虚拟化 (NFV) 和广播应用的基本多功能加速器,这些应用需要硬件加速器提升大规模数据移动和流数据管道框架的速度。 在 HPC 环境中,大规模数据移动前后数据的压缩和解压缩功能至关重要。相比独立的 FPGA,集成 HBM2 的
[嵌入式]
英特尔发布行业首款集成<font color='red'>高</font><font color='red'>带宽</font>内存、支持加速的 <font color='red'>FPGA</font>
英特尔发布行业首款集成带宽内存、支持加速的 FPGA
近日,英特尔宣布推出英特尔® Stratix® 10 MX FPGA,该产品是行业首款采用集成式高带宽内存 DRAM (HBM2) 的现场可编程门阵列 (FPGA)。通过集成 HBM2,英特尔 Stratix 10 MX FPGA 可提供 10 倍于独立 DDR 内存解决方案的内存带宽1。凭借强大带宽功能,英特尔 Stratix 10 MX FPGA 可用作高性能计算 (HPC)、数据中心、网络功能虚拟化 (NFV) 和广播应用的基本多功能加速器,这些应用需要硬件加速器提升大规模数据移动和流数据管道框架的速度。 在 HPC 环境中,大规模数据移动前后数据的压缩和解压缩功能至关重要。相比独立的 FPGA,集成 HBM2 的 F
[嵌入式]
美高森美提供用于带宽太空应用的RTG4 FPGA开发工具套件
增强太空领域领导地位 业界首个耐辐射 FPGA工具套件为太空应用设计人员提供全面的评测和设计平台 致力于在电源、安全、可靠和性能方面提供差异化半导体技术方案的领先供应商美高森美公司(Microsemi Corporation,纽约纳斯达克交易所代号:MSCC) 宣布提供RTG4 FPGA开发工具套件。该套件是开创先河的同类首款平台,让太空应用设计人员可评测和开发基于美高森美RTG4高速信号处理耐辐射现场可编程门阵列(FPGA)器件的各种应用,包括数据传输、串行连接、总线接口和高速设计。 美高森美航天和航空业务部高级营销经理Minh Nguyen表示: 我们的RTG4开发工具套件让客户易于设计太空应
[嵌入式]
基于FPGA带宽存储接口设计
  如今,越来越多的应用场景都需要FPGA能够和外部存储器之间建立数据传输通道,如视频、图像处理等领域,并且对数据传输通道的带宽也提出了较大的需求,这就导致了FPGA和外部Memory接口的实际有效带宽成为了制约系统性能的瓶颈,所以Memoiy控制器的效能,则成为提升系统性能的关键要素。Altera最新一代28nm器件中的Cyclone V和Arria V系列FPGA都集成了硬核存储控制器HMC(Hard Memory Controll er)单元,相比于以往的软核解决方案,硬核解决方案能够在帮助降低系统功耗的同时显著提升接口工作性能,适合应用于对Memory接口带宽有较大需求的场合。   1 存储器接口的底层架构   Q
[嵌入式]
赛灵思推出带宽低功耗的Virtex-6 FPGA
      2009年2月6日,可编程逻辑解决方案厂商赛灵思公司(Xilinx, Inc.)在北京宣布推出新一代旗舰产品--Virtex® 高性能现场可编程门阵列(FPGA)系列产品,支持高性能、计算密集电子系统开发人员在面对更短设计周期和更低开发成本压力的情况下设计出“更绿色”的产品。 新的Virtex-6 FPGA系列比前一代产品功耗降低多达50%,成本降低多达20%。该系列产品进行了最合适的组合优化,包括灵活性、硬内核IP、收发器功能以及开发工具支持, 从而可以帮助客户满足市场需求,在追求更高带宽的同时, 适应不断演化的标准以及苛刻的性能要求。有了新一代Virtex 系列 FPGA,更多的系统设计人员就可在无线/有线通信、广
[嵌入式]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved