datasheet

基于FPGA和ARM9的片上网络系统硬件平台

2016-09-19来源: eefocus关键字:FPGA  ARM9  片上网络系统
 IC制造技术的发展推动着芯片向更高集成度方向前进,从而能够将整个系统设计到单个芯片中构成片上系统SoC(System on Chip)。SoC采用全局同步型共享总线通信结构。这类系统由于挂在总线上的设备在通信时对总线的独占性以及单一系统总线对同步时钟的要求,使得在片上IP核越来越多的芯片中,不可避免地存在通信效率低下、全局同步时钟开销大等问题。


片上网络NoC(Network on Chip)的提出有效地解决了上述问题。该系统借鉴了计算机网络中分组交换的通信方法,可以根据应用灵活地采用多种网络拓扑结构互连片上IP核[1]。各IP核间有多条链路可以进行并行通信,由FIFO跨接处于异步时钟域中的IP核,实现全局异部局部同步时钟系统。具有可扩展性好、低互连功耗和低延迟等特点。

然而目前NoC还处于研究阶段,国内许多科研机构和院校围绕着网络拓扑结构、映射算法、路由算法、测试方法、路由节点的设计等展开研究[2]。各种基础理论的验证通常依赖于软件建模和硬件仿真。但针对NoC具体的应用系统少有报道。本文阐述了一个小型NoC系统的硬件实现,对系统的硬件实现方案、通信接口及信号完整性等问题进行了细致地研究。通过对完整系统的设计与实现,探索了NoC系统应用过程中的关键技术与难点,同时验证了NoC相关理论算法与结构、路由节点的设计和FPGA的多核技术等。

1 硬件平台的设计

NoC应用的最终目标是将大型的多核系统设计到单芯片中,使得片内可以容纳大量处理器核、专用IP核、存储器、数据通信单元等。然而这类庞大的系统在流片之前都需要合适的硬件平台来进行仿真、验证工作。另外某些场合的NoC系统更可能会直接选择使用FPGA作为其最终的硬件实现方案。因此基于FPGA的NoC应用系统设计具有实用性。考虑到FPGA的资源限制与NoC系统特点,针对3×3 的2D Mesh结构设计了基于FPGA的NoC应用系统框架,如图1所示。

图中NoC系统包含9个资源节点,分为3行3列排列,每个资源节点有一个相邻的路由节点R与其相连。9个路由节点按规则的二维网状排列,由并行互连线连接构成通信网络。资源节点包括资源网络接口SNI(Source Network Interface)、片内存储器M和IP核等。其中IP核可以是处理器核NIOS、专用IP核、DSP核,也可以是用户设计的专用电路,而处理器核运行所需的存储任务在验证过程中由片外存储器SDRAM和Flash实现;通信网络包括路由节点R和并行互连线,路由节点实现与本节点相连的资源节点的数据收发和相邻路由节点的数据转发功能。互连线构成路由节点间信息传输的载体,FPGA内部大量的可编程互连线可以保障路由节点间足够的通信带宽。

1.1 NoC系统设计

NoC系统中资源节点使用的IP核、路由节点所需的FIFO缓冲器以及大量的互连线, 对平台的核心器件FPGA提出了严峻的挑战。以目前最先进的FPGA来构建大型的NoC系统仍显不足,解决的方法通常由多片FPGA组合实现系统功能。考虑到本平台主要由一个小型应用系统的实现,以及算法和路由的验证等组成,采用了单片大容量器件构成独立的系统平台,并设计了扩展接口,可进行多片组合实现更大的应用系统。

目前,大容量可编程器件的供应商主要有Xilinx公司、Altera公司和Actel公司。各大供应商都提供了大容量与高速度的产品、完善的开发工具支持和常用IP核。综合应用的速度、软核的开放性、器件的定购周期与性价比,最终选定了Altera公司Cyclone IV 系列的EP4CE115F29芯片。该器件具有115 KLE,432 个M9K存储块,4个锁相环,20个全局同步时钟网络,780脚的BGA封装内提供528个用户I/O端口[3]。

处理器核是多核系统中应用功能实现的常用部件。作为一款32位RISC处理器,Altera提供的软核NIOS II在仅占用3 KLE的情况下提供超过200 DMIPS的性能,并提供了丰富的外设接口IP和高性能的AVLEN总线。开发工具SoPC Builder软件支持单芯片内多个独立NIOS核的定制,同时NIOS II IDE软件提供了多核的程序开发与调试环境。因此NIOS II可以作为NoC应用系统中的软核处理器。

路由节点负责NoC的通信工作,其通信带宽与可靠性直接影响着系统的性能。许多研究人员深入研究了路由节点的设计,并针对多种应用设计进行了优化[4]。这类优化大多围绕着提高通信吞吐量、减少通信延迟,解决拥塞等问题。路由的改进给节点的RTL综合提出了新的要求。例如一个缓冲式快速虫孔交换路由节点,片内设计有10个以上独立的32×16 FIFO,然而许多的小FIFO在综合时都会各自占用一个包含32×256 的M9K单元。造成内部存储单元的使用效率低下、资源紧缺的问题。另外由于片上网络全局异步时钟的特点,现代FPGA越来越丰富的全局时钟树网络显得多余而浪费。器件供应商们如果能在FPGA的设计过程中引入对这些问题的解决方案,必然会极大地推动未来NoC应用系统的FPGA实现。

1.2 基于ARM的资源网络节点设计

ARM(Advanced RISC Machines)系列处理器因其高性能、低功耗、开放性好等优点,在许多领域广泛应用。长期的应用开发形成了许多相关的软硬件资源。例如三星公司的S3C24XX系列处理器,不仅提供了丰富的外设接口,移植了成熟的ARM-Linux,更可以提供完整的TCP/IP协议支持和相当丰富的外设驱动,加速了应用的开发速度。NoC系统如能将片外的ARM处理器作为片上多核系统中的片外资源节点,充分利用现有软硬件资源,将给NoC系统带来巨大的应用空间。片外硬核与NoC系统的信息交换,即ARM同路由节点的通信由专用资源网络接口SNI完成。针对ARM 处理器AHB总线时序,设计了基于DMA通信的SNI单元,如图2所示。图中ARM的数据总线为双向数据总线,需要通过SNIC(Source NetworkInterface Controller)的控制实现分时复用。数据传输由SNIC发起,经过nXDREQ向DMAC发送请求信号,DMAC在获得总路控制权后发出nXDACK信号[5]。随后AHB总线将产生源和目的地址的读写信号进行数据传送,最终完成一次DMA传输。


1.3 外围电路及电源设计

系统为实现各类功能验证提供了大量的外围电路,包括多套NIOS软核运行所需的存储器、双通道高速模拟信号输入与输出单元、摄像头模组接口、VGA视频输出单元、10 M/100 M以太网接口单元和音频接口单元。
电压要求的多样化需要多组的电源设计,其中FPGA由1.2 V核心电压、3.3 V与2.5 V I/O Buffer电压、2.5 V模拟PLL电压以及1.2 V数字PLL电压组成。模拟PLL电压需选用线性整流降压得到,以获得低纹波输出的稳定电压源;其他数字部分电源适合采用开关型整流器电路供应。例如TI的TPS54550器件,具有输出电流大、效率高、外围器件少等优点。值得一提的是,CYCLONE IV 内部具有电压检测与电源管理功能,没有上电顺序要求,简化了电源的设计。

2 信号完整性分析

大量高速器件的采用、FPGA的高密度封装、敏感的A/D和D/A转换芯片和许多开关整流器的噪声,这些都决定着需要对信号完整性分析予以足够的重视。设计过程中对叠层、电源隔离、地线处理做了细致的工作。采用Cyclone片内端接OCT(On-Chip Termination)的源端端接方案,并通过精心的布局布线,有效地克服了各种信号干扰。最后使用SigXplorer 软件提取PCB模型对信号的反射和串扰进行仿真,验证了系统的信号完整性设计。

2.1 叠层设计

叠层设计涉及电源与信号层的规划、走线的密度与层数的折衷等问题。本系统中29×29的BGA780封装的扇出是决定信号层层数的重要因素,假设1 mm球间距间扇出一根导线,在没有考虑顶层扇出限制和扇出线物理连接限制的情况下,可以计算出528个用户I/O端口加上少量配置线至少需要5个信号层,加上电源层后的总层数将达到8~12层,导致层数过大。结合加工工艺和串扰分析等情况,在允许的范围内尽可能降低层数的原则,最终确定间距39.37 mils扇出2根导线, 其中包括14 mils 的扇出过孔、5 mils的线宽和扇出线间距。采用信号1-电源-信号2-信号3-地-信号4的层叠方案。信号线线宽为5mils时的特征阻抗控制为50 ?赘。

2.2 阻抗匹配设计与仿真

输出缓冲的源端内阻、高速系统中传输线的特征阻抗以及输入缓冲的输入电阻间的差距带来了信号传输过程中的反射。当输出门的信号在传输介质上往返时间大于信号最小边沿时间时,电路需采取端接来实现阻抗匹配,端接可采用末端并接电阻或源端串接电阻等方式。

末端端接将电阻放置于接收器端一侧,驱动波形沿传输线以满幅度传播,到达末端时由端接电阻吸收,接收电压等于传输电压。末端端接具有上升时间快的优点,但对输出门的驱动电流有一定的要求,这也带来了较大的功率消耗。

源端端接采取控制输出端的反射系数的方法。通过在源端串接一个电阻,使得串接电阻加上源端缓冲器的内阻接近传输线的特征阻抗。Cyclone IV系列产品均设计了OCT功能,可以选择使用片内串接电阻。使用SigXplorer软件首先提取PCB上AD9765数据线的传输线模型,然后与Altera提供的TTL 2.5 V串接50 ?赘电阻的IBIS模型进行125 MHz信号的反射仿真,仿真结果如图3所示。源端信号波形的幅度由于端接电阻的分压,在传输介质上的初始信号幅度降至满幅度信号的1/2,这1/2幅度的信号大约经过1 ns后到达末端。由于末端数字电路输入阻抗非常大,反射系数接近+1,从而得到1/2幅度的反射信号,与原1/2幅度信号叠加后在末端得到完整幅度的信号。反射信号再经过1 ns延迟后回到源端,被源端端接衰减,此类端接具有静态功率小等优点。

同时对未串接50 ?赘电阻的TTL 2.5 V 模型进行了仿真,其它仿真参数均不变的情况下,发现电路末端信号具有明显过冲现象,如图4所示。因而Cyclone IV的OCT技术是简化高速线路PCB板设计、提高信号完整性最简便实用的途径。实验表明,测量结果与仿真波形接近,AD9765在最高理论速度125 MHz下工作稳定。


2.3 串扰仿真

互感、互容使得相邻传输线间信号相互耦合从而形成串扰,传输线的间距是其中最关键的因素。本系统中大多数走线间距为15 mils,无需担心串扰问题,而BGA的扇出采用的是5 mils的间距, 并且存在许多长度在1 000 mils以上的平行线,串扰的仿真与降低串扰的影响成为设计过程中不可缺少的一个环节。采用SigXplorer对相邻BGA扇出微带线的模型进行了仿真,结果如图5所示。干扰源是125 MHz的时钟信号,被干扰线路为相距干扰线路5 mils的弱下拉平行微带线。可见在被扰线路的源端和末端产生了接近200 mV的串扰,属于电路正常工作可以接受的范围。

设计了基于FPGA的NoC系统硬件平台,在此基础上完成了一个小型的片上网络系统。设计过程中充分考虑了片上网络系统的应用特点,针对典型3×3的2D Mesh结构进行设计。实践表明,系统达到了设计要求,可以满足NoC系统的硬件要求,同时系统也将作为后续NoC映射、路由及测试算法的验证与仿真平台。

NoC仍然有着广阔的研究空间,许多新的结构或算法将会不断涌现,以及更复杂应用系统的验证需求对硬件平台会有更高的要求。本文对平台设计中一些重要的问题进行了探讨, 对于后续相关硬件平台的开发及FPGA应用系统的设计具有一定的借鉴意义。

关键字:FPGA  ARM9  片上网络系统

编辑:什么鱼 引用地址:http://news.eeworld.com.cn/mcu/article_2016091929529.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:嵌入式系统休眠唤醒自动运行程序的方法设计
下一篇:STM32学习笔记:在IAR中建立FWlib 3.0项目

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

FPGA、可编程HPC—未来就靠你们了!

技术名词:FPGA、HPC、触发器过滤器、Github、HLS、hls4ml、Project Catapult、HWMS、ML、DNN、GEMM、Statix FPGA为高性能计算和机器学习提供了一种早期的架构专门化选项。 体系结构专门化是继续改进性能的一种选择,以克服摩尔定律中减缓技术步伐所带来的限制。无论是在功耗还是性能方面,使用特定于应用程序的硬件来加速应用程序或其中一部分,并允许使用更高效的硬件作为支撑。  考虑到为单个应用程序或工作流构建计算硬件的固有成本,这种策略不能用于所有应用程序。然而,通过将挑战组合成组,或者识别能够从加速中获益的关键工作负载或代码,很可能成为提高应用程序
发表于 2019-07-18
FPGA、可编程HPC—未来就靠你们了!

Microchip助力客户加速智能嵌入式视觉设计

该60-nA IQ降压转换器可提升各种工业和个人电子产品应用中电池的使用效率并缩小整体电源解决方案的尺寸 德州仪器(TI)于推出一款超低功率开关稳压器TPS62840,其工作静态电流(IQ)可达到60 nA,仅为业界类似器件的1/3。它可在1-µA负载下可提供80%的极高轻载效率,从而使设计人员能够延长其系统的电池使用寿命,或使用更少或更小的电池来缩小其整体电源解决方案尺寸并降低成本。此外,新型DC/DC转换器的输入电压(VIN)范围较宽,为1.8 V至6.5 V,能够支持各种化学电池和配置。 得益于这些特性及其可选择的功能,TPS62840可帮助工程师在诸多由电池供电且持续运行的工业和个人电子产品应用中克服关键
发表于 2019-07-16
Microchip助力客户加速智能嵌入式视觉设计

科技如何改造金融业?

消息传递和温和的轻推来帮助实现特定的目标 - 这就是行为经济学的实际应用。“Boteju解释说,数据驱动的机器学习也被用于解决特定的客户问题。为了实现这种新形式的银行业务,他认为银行和金融科技共同创建更广泛的生态系统至关重要。“我们如何与技术公司合作解决问题并提供解决方案 - 这对行业来说是一个巨大的挑战,”他相信。Boteju还指出,银行需要为前线员工提供支持,同时自动化许多传统角色。“我们需要为他们提供帮助客户的工具,我们也会看到创造全新的工作角色。算法力学,机器学习经验管理者,正在创建新角色,并正在塑造一整套新的要求和技能。“FPGA的崛起Xilinx全球业务开发 - 金融技术部门的Alastair Richardson解释说
发表于 2019-07-12
科技如何改造金融业?

英特尔携手WWT重塑FPGA,为世界带来灵活的加速体验

日前,WWT官方发表了一篇博客,介绍了WWT如何同英特尔合作,利用高级技术中心,展示全新的FPGA技术,让整个FPGA开发及导入变得更简单,更智能,更强大。以下是文章正文:可定制的现场可编程门阵列(FPGA)长期以来为数据中心提供了一系列优势,包括最大化计算容量和降低TCO,但它们的复杂性也是众所周知。现在,英特尔推出了新一代FPGA技术,这种技术在创新应用领域的部署更简单,更经济实惠。数据中心几十年来,FPGA因其灵活的动态可编程能力而受到高度重视,数据路径与任何给定的工作负载完全匹配,包括数据分析,图像推断,加密和压缩。借助这些多功能芯片,您可以提供更快的处理速度,更高的功效和更低的延迟服务,从而降低总体拥有成本,同时在数
发表于 2019-07-11
英特尔携手WWT重塑FPGA,为世界带来灵活的加速体验

曾引领PC时代的英特尔,如今要加入汽车行业?

方面的技术积累。 而对ADAS巨头Mobileye的收购,不仅使英特尔拥有了“CPU+FPGA+EyeQ+5G”构成的强大计算平台和通信能力,还使得英特尔收获了近70%的ADAS市场份额,以及芯片和算法协同开发带来的低成本优势。 而在业务布局方面,英特尔也主要分为两个部分: 其一,是智能座舱方面。在这一方面,英特尔拥有专门为汽车智能驾舱研发的英特尔凌动A3900处理器,基于该处理器的Apollo Lake平台,具有强大计算能力,可支持车载信息娱乐系统/车载驾驶舱、数字仪表、后座娱乐和高级驾驶辅助系统等功能。 其二,在自动驾驶领域,一方面是依托Mobileye本身所具备的自动驾驶解决方案,另一方
发表于 2019-07-10
曾引领PC时代的英特尔,如今要加入汽车行业?

高云半导体推出最新安全FPGA系列产品

全球发展最快的可编程逻辑公司广东高云半导体科技股份有限公司(以下简称“高云半导体”)宣布其安全FPGA系列产品正式发布。安全FPGA针对端点应用,实现内置的安全加密功能以消除安全攻击和边缘计算中的漏洞。随着科技的发展,日常生活中设备互联已是常态,然而,随着这些设备数量的增长,数据被窃取的威胁也在逐日增加。通过智能监控系统、智慧工厂以及汽车作为入口进行信息安全攻击已成为日常事件。为了阻止这类攻击,从边缘的安全信任根开始,一直到连接到云的安全身份验证技术已经成为迫切需求。“随着IoT的普及以及工业物联网等的兴起,产品和系统的安全性变得至关重要,”高云半导体中国区销售总监兼市场副总裁黄俊表示,“高云半导体基于PUF技术的GW1NSE芯片
发表于 2019-07-03
高云半导体推出最新安全FPGA系列产品

小广播

何立民专栏

单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2019 EEWORLD.com.cn, Inc. All rights reserved