ADSP-21535 Blackfin的Mem DMA高速通信-电子工程世界

摘要：针对ＡＤＳＰ－２１５３５Ｂｌａｃｋｆｉｎ的ＭｅｍＤＭＡ高速通信中的关键技术进行了讨论，分析了系统的内存管理，对ＤＭＡ的相关寄存器的配置进行了详细讲解，并给出了具体实例。对多种内存之间的ＤＭＡ列出了实际的指标评测，为该系列ＤＳＰ工程应用的高速通信设计提供了重要参考。关键词： ADSP-21535, Blackfin Mem DMA ＡＤＳＰ－２１５３５Ｂｌａｃｋｆｉｎ是美国ＡＤ公司和Ｉｎｔｅｌ公司于２００１年底联合推出的一款定点ＤＳＰ，ＲＩＳＣ指令结构，运作高效，具有十分优异的性能。该ＤＳＰ具有３００ＭＨｚ的主频，２个４０ｂｉｔ的ＭＡＣ（乘加器）和２个３２ｂｉｔ的ＡＬＵ（算术逻辑单元），４个８ｂｉｔ的视频处理单元，１６个地址寻址单元。该ＤＳＰ内部集成了３０８ＫＢ的ＲＡＭ，并具有丰富的外部接口，如ＰＣＩ、ＵＳＢ、ＳＰＩ、同步和异步串口等。同时，芯片内部设计了看门狗和多种定时器，充分满足软件工程稳定性的设计要求。值得一提的是，２１５３５可以动态地控制电压输入，调整运行频率，减少芯片功耗，十分适用于移动产品的设计。

２００２年底，ＡＤ公司在中国开始大规模推广Ｂｌａｃｋｆｉｎ系列的ＤＳＰ，２１５３５成为该系列的旗舰产品。由于该ＤＳＰ推出时间不长，相关文献几乎没有报道；而且，在许多接口性能方面，ＡＤ公司也没有对其给出准确的指标。根据通常的设计经验可知，新产品通常在某些方面没有达到设计要求。笔者所设计的高速通信板数据交换速度必须达２０ＭＷｏｒｄ／ｓ以上，因此对该ＤＳＰ的高速通信必须进行准确仔细的评估和设计。ＡＤＳＰ－２１５３５的内存访问支持Ｉ／Ｏ方式、内存映射和多种ＤＭＡ方式，其中ＭｅｍＤＭＡ（ＭｅｍｏｒｙｔｏｍｅｍｏｒｙＤＭＡ）方式是最快的一种并行通信方式。因此，笔者在设计时选择了ＭｅｍＤＭＡ作为高速通信方式。由于２１５３５支持多种内存，因此在设计ＭｅｍＤＭＡ时，必须对２１５３５的内存管理有一个详细的了解。１ＡＤＳＰ－２１５３５的内存管理２１５３５的内存管理十分强大。它把存储器视为一个统一的４ＧＢ的地址空间，使用３２位地址。所有的资源，包括内部存储器、外部存储器、ＰＣＩ地址空间和Ｉ／Ｏ控制寄存器，都具有独立的地址空间。此地址空间的各部分存储器按照分级结构排列，以提供较高的性能价格比。一些快速、低延迟的存储器（如Ｌ１）的位置接近处理器核心，而低成本低性能的存储器远离核心。芯片内部的３０８ＫＢＲＡＭ中，其中Ｌ１（一级缓存）５２ＫＢ，Ｌ２（二级缓存）２５６ＫＢ；外部地址访问空间可以高达７６８ＭＢ，通过ＥＢＩＵ（ＥｘｔｅｒｎａｌＢｕｓＩｎｔｅｒｆａｃｅＵｎｉｔ，外部总线接口单元）进行管理。ＥＢＩＵ支持多种内存，如ＳＤＲＡＭ、ＳＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ、ＦＩＦＯ等。内存地址的具体配置空间如图１所示。

Ｌ１作为ＤＳＰ的一级缓存，可以与ＤＳＰ的内核一样，运行在３００Ｍｂｐｓ的高速上。它分为三部分：１６ＫＢ的ＩｎｓｔｒｕｃｔｉｏｎＲａｍ（指令存储器）、，两块１６ＫＢ的ＤａｔａＲａｍ（数据存储器）、４ＫＢ的ＳｃｒａｔｃｈｐａｄＲａｍ（中间结果缓存）。指令存储器既可以作为ＳＲＡＭ，也可以配置为４路联合设置的Ｃａｃｈｅ。数据存储器能够配置成双路联合设置的Ｃａｃｈｅ或者ＳＲＡＭ；中间结果缓存只能作为ＳＲＡＭ使用。指令缓存和数据缓存都可以通过ＤＭＡ方式灌入数据，但是对于中间结果缓存这种方式不能使用。Ｌ２作为ＤＳＰ的二级缓存，是一个统一的指令和数据存储器，能够根据系统设计要求同时存放代码和数据。Ｌ２具有ＤＳＰ核心同样的带宽，但是延迟时间较长，访问Ｌ２单个独立的地址时系统需要经过７个周期的延时，这时它的访问速度在４２．８Ｍｂｐｓ左右。所以如果程序比较大，必须在Ｌ２中编写程序时，通常将Ｌ１配置为Ｌ２的Ｃａｃｈｅ，这样，速度可以大大加快。２１５３５支持的片外存储器种类很多，值得一提的是它的ＳＤＲＡＭ控制器。２１５３５集成的ＳＤＲＡＭ控制器能够以ｆＳＣＬＫ（系统时钟，为核心时钟的若干分频）的速度，与多达４个Ｂａｎｋ的工业标准ＳＤＲＡＭ或者ＤＩＭＭ接口。每个Ｂａｎｋ可以配置为１６ＭＢ～１２８ＭＢ的存储器，符合ＰＣ１３３ＳＤＲＡＭ的标准。存储器的ＤＭＡ控制器提供高带宽的数据传输能力，它能够在内部Ｌ１／Ｌ２存储器和外部存储器（包括ＰＣＩ存储空间）之间执行代码或者数据的块传输。

２ＤＭＡ寄存器的配置为了描述ＭｅｍＤＭＡ序列，ＤＭＡ控制器使用一套名为描述子块（Ｄｅｓｃｒｉｐｔｏｒ）的参数。当需要后继的ＤＭＡ序列时，这些描述子块被链接起来。这样，一个ＤＭＡ序列完成时能够自动初始化下一个序列，并将其启动。如果不需启动下一个序列，只要将其指向一个内容为０的地址空间即可。如果下一次链接指向原描述子块，则ＤＭＡ完成后暂停。为访问整个ＡＤＳＰ－２１５３５的地址空间，源地址和目的地址描述子块采用了全３２位地址的基指针。两个描述子块均为５个字的连续空间，需要注意的是该连续空间必须定义在Ｌ２范围内。描述子块内包含的内容如图２所示。ＭｅｍＤＭＡ规定，描述子块所在的首地址必须传入相关的寄存器。描述子块首地址的高１６位装入ＤＭＡ＿ＤＢＰ寄存器（ＤＭＡＤｅｓｃｒｉｐｔｏｒＢａｓｅＰｏｉｎｔｅｒＲｅｇｉｓｔｅｒ，ＤＭＡ描述子块基地址寄存器）内。由于该寄存器严格限定必须在０ｘＦ０００～０ｘＦ００３，这就限定了源和目的地址描述子块只能定义在Ｌ２存储器内，并且高１６位地址相同。描述子块首地址的低１６位放在两个寄存器中，源地址描述子块低１６位装入ＭＤＳ＿ＤＮＤ寄存器（ＳｏｕｒｃｅＭｅｍｏｒｙＤＭＡＮｅｘｔＤｅｓｃｒｉｐｔｏｒＰｏｉｎｔｅｒＲｅｇｉｓｔｅｒ，ＤＭＡ源地址下一个描述子块寄存器），而目的地址描述子块低１６位装入ＭＤＤ＿ＤＮＤ寄存器（ＤｅｓｔｉｎａｔｉｏｎＭｅｍｏｒｙＤＭＡＮｅｘｔＤｅｓｃｒｉｐｔｏｒＰｏｉｎｔｅｒＲｅｇｉｓｔｅｒ，ＤＭＡ目的地址下一个描述子块寄存器）。其说明如图３所示。在描述子块的地址传入相应寄存器后，后面的四项先配置，然后设置第一项。也就是对管理ＤＭＡ启动参数的寄存器进行参数配置。两个配置寄存器的详细内容如图４所示。例如当目的地址寄存器为０ｘ８００３，源地址寄存器为０ｘ８００１时，传输的数据总长＝ＤＭＡ传输的长度%26;#215;字。需要注意的是，虽然此时传输以１６位（字长）传输，但ＤＭＡ的带宽是３２位，剩下的带宽资源将被浪费。８位传输时，带宽资源利用率更低。下面，以一个具体的３２位ＤＭＡ例子说明上面的描述子块和多个寄存器的使用方法。图4 DMA源地址和目的地址配置寄存器３３２位ＤＭＡ的例程Ｒ０．Ｈ＝０ｘ８００９ ／／ＤＭＡ源配置字，设置为３２位传输Ｒ０．Ｌ＝０ｘ８００ ／／ＤＭＡ长度Ｒ１．Ｌ＝０ｘ２０００ ／／ＤＭＡ源地址低１６位Ｒ１．Ｈ＝０ｘｆ０００ ／／ＤＭＡ源地址高１６位，这里指向Ｌ２Ｒ２．Ｌ＝ＲＡＭ＿ＲＥＡＤ ／／ＤＭＡ源描述子块首地址低十六位，ＤＭＡ读Ｒ２．Ｈ＝０ｘ８００ｂ ／／ＤＭＡ目的配置字，设置为３２位传输Ｒ３．Ｌ＝０ｘ００００ ／／ＤＭＡ目的地址低１６位Ｒ３．Ｈ＝０ｘｆｆ９０ ／／ＤＭＡ目的地址高１６位，这里指向Ｌ１数据存储器－ＢａｎｋＢＲ４．Ｌ＝ＲＡＭ＿ＷＲＩＴＥ ／／ＤＭＡ目的描述子块首地址低十六位，ＤＭＡ写Ｐ０．Ｌ＝ＲＡＭ＿ＲＥＡＤ ／／将３２位的源描述子块的地址载入Ｐ０Ｐ０．Ｈ＝ＲＡＭ＿ＲＥＡＤ Ｐ１．Ｌ＝ＲＡＭ＿ＷＲＩＴＥ ／／将３２位的目的描述子块的地址载入Ｐ１Ｐ１．Ｈ＝ＲＡＭ＿ＷＲＩＴＥ ＷＰ０＋０ｘ２ ＝Ｒ０ ／／将ＤＭＡ长度写入源描述块第二个字中 Ｐ０＋０ｘ４ ＝Ｒ１ ／／将ＤＭＡ的３２位源起始地址写入源描述块第三第四个字中ＷＰ０＋０ｘ８ ＝Ｒ２．Ｌ ／／将下一个源描述子块的地址写入源描述块第五个字中ＷＰ１＋０ｘ２ ＝Ｒ０ ／／将ＤＭＡ长度写入目的描述块第二个字中 Ｐ１＋０ｘ４ ＝Ｒ３ ／／将ＤＭＡ的３２位目的起始地址写入目的描述块第三第四个字中ＷＰ１＋０ｘ８ ＝Ｒ４ ／／将下一个目的描述子块的地址写入目的描述块第五个字中ＷＰ０ ＝Ｒ０．Ｈ ／／将ＤＭＡ源配置字写入源描述块第一个字中ＷＰ１ ＝Ｒ２．Ｈ ／／将ＤＭＡ目的配置字写入目的描述块第一个字中Ｒ６＝Ｐ０ ／／将Ｐ０的值同时存在Ｒ６内Ｐ２．Ｌ＝０ｘ３９０Ａ ／／将ＤＭＡ源描述子块配置寄存器的地址传给Ｐ２Ｐ２．Ｈ＝０ｘＦＦＣ０ ＷＰ２ ＝Ｒ６．Ｌ ／／将ＤＭＡ源描述子块所在地址的低１６位传给Ｐ２指向的地方Ｐ３．Ｌ＝０ｘ４８８０ ／／将描述子块基地址寄存器的地址传给Ｐ３Ｐ３．Ｈ＝０ｘＦＦＣ０ ＷＰ３ ＝Ｒ６．Ｈ ／／将ＤＭＡ源描述子块所在地址的高１６位传给基地址寄存器Ｐ４．Ｌ＝０ｘ３８０Ａ Ｐ４．Ｈ＝０ｘＦＦＣ０ ／／将ＤＭＡ目的描述子块配置寄存器的地址传给Ｐ４Ｒ６＝Ｐ１ ／／将Ｐ１的值转存到Ｒ６ＷＰ４ ＝Ｒ６．Ｌ ／／将目的描述子块所在地址的低１６位传给配置目的地址寄存器Ｐ５．Ｌ＝０ｘ３９０２Ｐ５．Ｈ＝０ｘＦＦＣ０ ／／将ＤＭＡ源地址配置寄存器所在地址传给Ｐ５Ｒ６＝ＷＰ５ ＢＩＴＳＥＴＲ６０ ／／设置Ｒ６的最低位为１，表示准备启动读ＤＭＡＩ０．Ｌ＝０ｘ３８０２ Ｉ０．Ｈ＝０ｘＦＦＣ０ ／／将ＤＭＡ目的地址配置寄存器的地址传给Ｉ０Ｒ７．Ｌ＝ＷＩ０ ＢＩＴＳＥＴＲ７０ ／／设置Ｒ７的最低位为１，表示准备启动写ＤＭＡＷＰ５ ＝Ｒ６ ／／将Ｒ６和Ｒ７的低１６位写入两个配置寄存器中，真正启动ＤＭＡＷＩ０ ＝Ｒ７．Ｌ ＤＭＡ＿ＷＡＩＴ ／／等待ＤＭＡ结束Ｒ６＝ＷＰ１ ／／根据写描述子块第一个字的最高位判断描述子块的所有权ｃｃ＝ｂｉｔｔｓｔＲ６１５ ＩＦｃｃＪＵＭＰＤＭＡ＿ＷＡＩＴ ／／如果为１，表示还在ＤＭＡ状态，继续判断，等待ＲＴＳ ．ａｌｉｇｎ４ ／／在Ｌ２空间范围内定义两个描述子块，要求４个字节对齐．ＢＹＴＥ２ＲＡＭ＿ＲＥＡＤ５ ．ａｌｉｇｎ４ ．ＢＹＴＥ２ＲＡＭ＿ＷＲＩＴＥ５ 值得注意的是，在上述ＤＭＡ例程中，笔者使用了查询等待方式，但中间完全可以插入其他指令，例如ＤＳＰ还可以同时作双乘加和两次３２位取数。只要不访问正在ＤＭＡ读写的地址区域，没有任何影响。这意味着，在系统ＤＭＡ的同时，ＤＳＰ可以同时进行其他操作，这一点对于提高ＤＳＰ的效率至关重要。４各种内存空间的ＤＭＡ访问指标测试及分析根据以上配置，笔者对ＡＤＳＰ－２１５３５的ＤＭＡ性能进行了比较详尽的测试。测试数据如表１所示。表1 21535的DMA实测数据源地址目的地址 DMA长度（双字）周期数（个）速度（双字/秒） L2 L1 4096 43615 28.2M L2 SDRAM 8192 54878 44.8M L2 L2 8192 66737 36.8M L1 L1 4096 64164 19.1M L1 SDRAM 4096 39891 30.8M L1 L2 4096 52661 23.3M SDRAM L1 4096 28625 42.9M SDRAM SDRAM 4096 65668 18.7M SDRAM L2 8192 52314 46.9M 注：测试环境-DSP核心时钟300MHz，系统时钟120MHz，SDRAM为PC133标准。样本采样：各15次从表１中的实测数据可以看出，ＤＭＡ的速度均在１８．７Ｍ双字／秒以上，最高速度达４６．９Ｍ双字／秒，可以满足工程中高速采集的需要。从表中数据可以得出以下结论：（１）ＤＭＡ双向速度不对称，将源地址和目的地址交换后，速度会发生变化；（２）低速向高速区域传输时，要比反向传输快；（３）同类区域ＤＭＡ一般比区域之间ＤＭＡ要慢。如Ｌ１ＤＭＡ到Ｌ１，比Ｌ１ＤＭＡ到Ｌ２和ＳＤＲＡＭ都要慢一些。其它区域也有类似现象。（４）高速区域ＤＭＡ速度并不一定快，如Ｌ１区域ＤＭＡ速度总体表现反而最低。

引用地址：ADSP-21535 Blackfin的Mem DMA高速通信

上一篇：基于DSP的谐波控制器的研制
下一篇：基于ADSP-BF532的嵌入式网络视频服务器的研究与实现

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■TI 有奖直播 | 使用基于 Arm 的 AM6xA 处理器设计智能化楼宇

■Follow me第二季第3期来啦！与得捷一起解锁高性能开发板【EK-RA6M5】超能力！

■报名直播赢【双肩包、京东卡、水杯】| 高可靠性IGBT的新选择——安世半导体650V IGBT

■30套RV1106 Linux开发板（带摄像头），邀您动手挑战边缘AI~