TMS320C6678处理器的VLFFT演示

最新更新时间:2015-08-25来源: EEWORLD作者: Xiaohui Li 处理器应用工程师, Ellen Blinka 处理器市场工程师关键字:TMS320C6678  VLFFT  DSP  TI  SoC 手机看文章 扫描二维码
随时随地手机看文章
简介
 
    本白皮书探讨了TMS320C6678处理器的VLFFT演示。通过内置8个固定和浮点DSP内核的TMS320C6678处理器来执行16K-1024K的一维单精度浮点FFT算法样本,检测其分别在采用1,2,4或8核时各自的运行时间。演示的结果证明了C66X DSP内核的优异性能,以及TMS320C6678处理器跨多核平行化执行性能与内核数量成正比的特性。本文的演示采用FFT算法,该算法在诸如医学成像、通信、军事和商业雷达以及电子战(干扰器、抗干扰器)等领域中被频繁应用。本文演示结果显示,在运行速率为1 GHz,DSP内核为8个时,用TMS320C6678处理器执行1024K的FFT算法样本只需要6.4毫秒。
 
TMS320C6678 SoC
 
    TMS320C6678处理器具有8个DSP内核,是基于TI的C66x 固定和浮点DSP内核以及 TI享有多核权利的创新型KeyStone构架创建的。它运行速度最高可达1.25GHz,在这个速度下它可以进行每秒160千兆次浮点运算,而且通常情况下消耗的电能不到10w。TMS320C6678处理器的特色是它每一个DSP内核都有512KB的 L2内存;此外,8MB的芯片内存中有4MB的共享内存,并且这两个内存都有纠错码。它的DDR3界面是64位的,有8位纠错码,运行速度可以高达每秒1600兆比特,同时支持高达8GB的外部存储器数据存取。此外,TMS320C6678的配套外设包括PCle、Serial RapidIO® 、Gigabit Ethernet以及TI的HyperLink界面,这个界面在连接到TI的其他DSP,ARM, ARM+DSP处理器以及第三方的FPGA时可以提供高达50Gbps的连接速度。
 
    在本文的VLFFT演示中,TMS320C6678处理器运行速度为1GHz,DDR3界面传输速度为1333MHz。
 
图1 TMS320C6678框图
 
VLFFT演示
 
    由于VLFFT算法要求将输入的数据存放在处理器的外部存储器当中,在本演示过程中,数据通过DSP内核存取、分配和处理,最后将结果输出到外部存储器中。同时,在整个过程中始终保持循环计数和时间测量。演示时,为TMS320C6678处理器配置不同数量的内核(1,2,4或8个)来计算当FFT大小不同时的结果,这些FFT规格包括:
16K
32K
64K
128K
156K
512K
1024K
 
    在演示过程中,通过将计算负载分布到多个核和完全充分利用C66X DSP内核高性能计算能力的方法来确保执行FFT达到最大性能。同时运用基础时间抽取算法将一维VLFFT算法用类似的二维FFT算法来表达。这种方法是在遇到非常大的数据N时,分解成N=N1*N2的形式。在本演示过程中,如果一维输入数组非常大,就采用N1行*N2列的二维数组来表示,然后通过以下步骤来计算FFT:
1.计算N2列数组在N1行数组中不同大小时的FFT;
2.乘以旋转因子;
3.存储N2 列在N1行不同大小时FFT算法的结果,形成一个N2*N1的二维数组;
4.计算N1行数组在N2列数组中不同大小时的FFT;
5.存储列方向上的数据形成N2*N1二维数组。
 
    这个算法被Takahashi称为Hitachi SR8000的高性能平行FFT算法。
 
    在执行多核算法时,第一步是计算N2列(核的数量)在N1行规格下的FFT算法,第四步是计算N1行(核的数量)在N2列规格下的FFT算法。0核是主核,负责与所有剩下的附属核同步。根据N1数组和N2数组的大小,每一个内核计算出来的FFT总数都被分成几个较小的模块以适应每个核L2 SRAM内存的空间。每一组数据都通过外部存储器中的DMA 预取到L2 SRAM内存中,然后通过DDR将数据返回到外部存储器中。每个核都运用2个DMA通道在外部存储器(DDR3)和内部存储器(L2 SRAM)中转化输入和输出的数据。
 
结果
 
    下页图表1展示了TMS320C6678评估版(TMDSEVM6678LE)分别在一个DSP周期和一个毫秒单位时间内运行FFT代码的结果。在理想状态下,当用于计算的内核数量增加一倍,循环计数就会减少一半。但在现实中,由于存在信息运行的天花板,同时受限于内存大小和信息宽度(内部存储器),这种情况很难实现。在这种情况下,当用双核取代单核时,运行FFT的时间平均减少了49.3 %,基本达到了理想的周期数的一半。当用四核替代一核时,运行FFT的时间平均减少了72.5%,而采用八核时平均运行时间则减少了81.6%。
 
表1:FFT分别在1/2/4/8DSP核时周期及毫秒的结果
 
    由此我们可以看出,无论是双核还是四核,随着FFT的大小从16k增加到256k,运行时间减少的幅度也越来越大,而采用八核时运行时间减少的幅度更加剧烈。这是因为对于较小的FFT,核数越多,并行代码相对于额外增加核数来提高性能的代价要小很多。以前256KB的FFT,在提高性能方面的效果并不太理想,在双核时只能提高2倍,四核时也只有4倍,而在八核时反而会降低其性能。这是由于八核处理数据的速度远高于外部存储器传输数据的速度,从而使其存储空间到达上限导致的。在本演示中,计算一个大小为1024k的FFT,即一百万点的FFT,在采用8 个DSP内核,运行速率为1GHz时,运行时间仅6.4毫秒。
 
图2:单核与多核在性能上的提升
 
结论
 
    综上所述,用TI的TMS320C6678处理器来执行一个百万点的FFT,在1GHz的工作频率下,8核同时运行所需时间仅需6.4毫秒。如此高速的DSP内核完全足以用来执行某些应用的实时运算,比如雷达、电子战争和医学绘图等。如果用最大速度1.25GHz来运行TMS320C6678处理器,同时采用更高带宽的DDR3和1600MTPS的话,执行运算所需时间会更短。
   
关键字:TMS320C6678  VLFFT  DSP  TI  SoC 编辑:chenyy 引用地址:http://news.eeworld.com.cn/DSP/2015/0825/article_4205.html

上一篇:Altera是否要担心英特尔的并购记录?
下一篇:Altera亚洲八个城市的巡展为工程师带来了创新设计解决方案

推荐阅读

TMS320C6678 存储器访问性能(下)
本文作者:德州仪器 冯华亮 1.DMA 访问存储器的性能 EDMA3 架构支持很多功能,可以实现高效的并行数据传输。本节讨论影响它性能的很多因素,如存储器类型,地址偏移等。 1.1 DMA 传输的额外开销 一般的传输时延被定义为EDMA 被触发到真正的数据传输开始的时间。由于数据传输开始的时间无法用简单的方法测量,所以我们用最小数据单元的传输完成时间来代表DMA 传输的时延或额外开销。根据不同源/目的地址的组合,这个值会有所不同。表4 列出了在1GHz C6678 EVM (64-bit 1333MTS DDR)上测得的从EDMA 触发(写ESR)最小数据传输(1 word)到EDMA 传输结束(读到IPR=
发表于 2015-06-26
<font color='red'>TMS320C6678</font> 存储器访问性能(下)
TMS320C6678 存储器访问性能 (上)
作者:德州仪器 冯华亮 摘要 TMS320C6678 有8 个C66x 核,典型速度是1GHz,每个核有 32KB L1D SRAM,32KB L1P SRAM 和 512KB LL2 SRAM;所有 DSP 核共享 4MB SL2 SRAM。一个 64-bit 1333MTS DDR3 SDRAM 接口可以支持8GB 外部扩展存储器。 存储器访问性能对 DSP 上运行的软件是非常关键的。在 C6678 DSP 上,所有的主模块,包括多个DSP 核和多个DMA 都可以访问所有的存储器。 每个DSP 核每个时钟周期都可以执行最多128 bits 的load 或store 操作。在1GHz 的时钟频率
发表于 2015-06-18
<font color='red'>TMS320C6678</font> 存储器访问性能 (上)
基于TMS320C6678的多核DSP上电加载技术
  0 引言  在视频检测、医疗影像及红外图像快速跟瞄系统应用中,越来越复杂的二维、三维甚至四维的图像处理,需要并行化的处理系统,并能够运行复杂的算法。要实现这些复杂的系统,高端FPGA+高性能DSP是目前普遍采用的方案,而单个DSP的性能已发展至极限,所以解决复杂的并行算法,多核DSP是现在发展的全新方向,其中多核DSP的根加载技术是其难点之一。  TI公司推出的DSP芯片TMS320C6678(C6678)具有8个内核的高性能DSP,每个内核工作频率均达1 GHz。  其支持的Boot 模式有SPI、I2C、EMAC、SRIO 和并口Emif16 NOR-FLASH。其中Emif16 NOR-FLASH模式是不用上位机参与、比较
发表于 2014-08-30
基于<font color='red'>TMS320C6678</font>的多核DSP上电加载技术
基于TMS320C6678 的多核DSP 上电加载技术
在视频检测、医疗影像及红外图像快速跟瞄系统应用中,越来越复杂的二维、三维甚至四维的图像处理,需要并行化的处理系统,并能够运行复杂的算法。要实现这些复杂的系统,高端FPGA+高性能DSP是目前普遍采用的方案,而单个DSP的性能已发展至极限,所以解决复杂的并行算法,多核DSP是现在发展的全新方向,其中多核DSP的根加载技术是其难点之一。TI公司推出的DSP芯片TMS320C6678(C6678)具有8个内核的高性能DSP,每个内核工作频率均达1 GHz.其支持的Boot 模式有SPI、I2C、EMAC、SRIO 和并口Emif16 NOR-FLASH.其中Emif16 NOR-FLASH模式是不用上位机参与、比较简单、独立成系统的一种,
发表于 2014-01-19
基于<font color='red'>TMS320C6678</font> 的多核DSP 上电加载技术
基于TMS320C6678 DSP的电源设计方案
TMS320C6678 DSP是TI最新发布的一款基于KeyStone架构的DSP,芯片内有8个内核,工作速度可达10 GHz.随着这款产品各方面的性能指标增加,对电源供应也提出了很高的要求,普通的稳压电源早已不能满足。由于现在的信号处理板上大多需要多片DSP协同工作,所以在本设计中,以两片6678DSP电源方案为例,将UCD9244作为电源的主要控制芯片,设计出的电源可同时满足这两片DSP的供电需求。   1 电源硬件电路设计与计算   1.1 系统总体方案设计   图1是系统的组成框图。采用统一的12 V电源进行供电,DSP的内核电压由一片UCD9244和两片UCD7242组成;经过TPS54620产生的3.3 V电源
发表于 2012-10-22
基于<font color='red'>TMS320C6678</font> DSP的电源设计方案
示波器用于波形重建的DSP滤波技术
波形重建滤波用来在两个实际数据采样点之间“插入”数学运算点。插入的数据点可提高较快时基下的波形测量精度和使波形更接近真实。等效/重复采样,也是一种透过插入点的方法实现的波形重建技术,但它的应用场合有限,仅对严格重复的波形有效;对信号实时变化的应用场合,不能使用等效采样。必须在一次采集完成一个完整的波形捕获,因此只能选择软件的方法重建波形。简单的波形重建,采用线性插补滤波器。尽管这类滤波器将改善测量分辨率、精度和显示质量,但更精确的内插技术是sin(x)/x 波形内差滤波技术,这是一种对称滤波器。过去,带宽较低的示波器一般具有高斯类型的滚降特点,2中的绿色曲线(底部)所示。果您使用这种高斯类型的低速滚降滤波器处理速度非常快的信号,由于
发表于 2022-03-01
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2023 EEWORLD.com.cn, Inc. All rights reserved