应用非对称双核MCU增强系统性能-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

本文从对比两颗分立MCU与单芯片双核MCU开始(以LPC4350为例)，展开介绍了非对称双核MCU的基础知识与重要特点。接下来，重点介绍了核间通信的概念与几种实现方式，尤其是基于消息池的控制/状态通信。然后，对内核互斥、初始化流程等一些重要的细节展开了论述。最后提出了双核任务分工的两种应用模型，并分别举例。

背景与基本概念

在开发MCU应用系统时，如果单颗MCU无法满足系统的要求，一个很普遍的做法就是使用两颗或更多的MCU，把一部分“杂项工作”分配给另一个有“助理”性质的低端MCU来完成。但是，采用两颗MCU，缺点也很明显，尤其是在芯片与PCB成本、系统可靠性及功耗方面都有先天的不足。此外，若采用了不同架构的MCU，还要面临需要不同的开发工具与开发人员的挑战。如果换一种思路，让MCU内部包含两个内核，其中一个用于主控，另一个用于协控，并且它们主控与协控在架构上能够向下兼容、高效通信，则在很多场合下都可以既保持多机系统的强大，又能避免多机系统的不足。

事实上，这即是“非对称多处理器(简称AMP)”架构的特点。AMP是与“对称多处理器(简称SMP)”相对的架构，后者各处理器有一致的编程模型，并且在分配工作时主要以均衡为原则。而AMP的优点在于精细的任务分工，灵活地适应不同情景，物尽其用，以最佳地平衡成本、性能与功耗。此外，AMP的编程难度也更低。因此，在MCU应用领域，AMP较SMP更为适合。

与独立的双MCU相比，AMP架构有很多优点。其中相当关键的就是，再添加一个内核的代价远比添加一个独立的MCU要低，尤其是当两个内核架构相似时，甚至仅相当于在现有硅片上再添加一两个UART。另一方面，两个内核可以有相同的主频，并且可以通过总线矩阵平等地访问片上资源。而在分立的双MCU方案中，协控MCU的主频常常远低于主控，并且双方使用低速的串行链路通信。

接下来，我们以恩智浦(NXP)半导体公司新推出的LPC4300系列为例(尤以LPC4350型号为代表)，对AMP MCU进行简单介绍。

非对称双核MCU的特点

AMP MCU一般用于相对大型的系统，这些系统对功能和性能都有较高的要求。在功能上，应支持较多的外设。LPC4350片载2个高速USB、2个CAN、工业以太网、图形LCD控制器，以及SDHC等接口；外加一些独有的逻辑可配置外设以及众多传统外设，适用于工控、能源、医疗、音频、车载、电机、监控等众多行业产品的开发。

性能的改善则是AMP MCU的灵魂。内核、存储器，以及总线架构对于性能有着至关重要的影响。图1展示了LPC4350的实现方式。

图1：LPC4350的内核、存储器以及总线连接图。

首先是内核的选择。LPC4350基于32位的ARM Cortex-M4和Cortex-M0内核(以下简称M4和M0)，两个内核均可在高达204MHz的主频下执行代码。其中，M4以信号处理和浮点运算能力见长，胜任很多原先要采用DSP才能满足的应用，并且继承了Cortex-M3的控制能力；另一方面，M0以其成本、能效和处理能力的压倒性优势，正迅速吸引开发人员从8/16位架构向上过渡。更重要的是，M4完全向下兼容M0，使用同一套开发工具即可开发、调试。其次是存储器的容量和组织方式。LPC4350配备多达264KB片上RAM，并且这些RAM被划分成4组，每组连接一条单独的总线，而并非没有分块。如若不然，则会出现两个核竞争使用同一块RAM的情况——性能反而还不如只用单个内核！进一步，LPC4350还有两条总线连接到外部扩展的并行和串行存储器，故总共有6个独立的存储器地址空间——LPC4350无片上闪存。对于有片上闪存的型号，片上闪存也分为两块。

最后是总线架构。LPC4350内部有一个八层总线矩阵。它如同一组纵横开关，可以把CPU与包括存储器在内的众多从设备通过总线任意连接。合理分配总线接通关系，避免多个主设备(如CPU和DMA)同时访问相同的存储器或外设，可以最大地保证各条数据流并行不悖，从而可以充分发挥性能上的优势。

内核间通信

内核间的通信可分为两类：一类是控制与状态信息的通信，另一类则是数据通信。前者一般不携带数据，但往往有较高的实时要求；后者则主要是各类数据缓冲区，通常实时性要求偏低但数据量大。控制/状态通信有较大的通用性，并且与任务间的同步较为相似。这类通信适合由系统软件实现并提供编程接口。数据通信则往往与具体应用相关较大(尤其是在数据结构上)，需要量体裁衣。在实现时，适合由应用软件定义各种数据结构。

内核间通过共享的RAM进行通信，并且每个内核都可以触发对方的一个中断源，通过准备数据-触发中断的方式进行通信，如图2所示。当然，内核也可以定期检查共享RAM的状态。

图2：内核间使用共享内存通信模式图。

接下来，我们介绍基于消息队列和消息池的控制/状态通信方案。

消息队列：开设两个消息队列，一个用于M4发送消息给M0，另一个则是M0发送消息给M4。两个队列的地址需事先约定好。队列是循环队列，可以使用简单的数组配以读、写下标来实现，也可以使用链表结构来实现。前者实现简单、开销小，但消息只能是定长，不便于携带其它信息，还有，就是必须把数组放置在共享内存区连续的位置，灵活性低。基于链表的实现用指针链接每则消息，每则消息除了公共的链表控制部分外，还可以根据消息类别携带各种各样的附加参数，并且可以由系统软件的内存管理机制灵活分配消息内存，不过，缺点是相对复杂，额外开销大。若涉及动态内存管理，实时性将远不如基于数组的方案。

消息队列有一个缺点，就是消息的串行化处理，它没有优先级的概念。但实际上，我们有实时操作系统(RTOS)及嵌套中断机制的支持，本应实现消息的并发处理。

消息池：消息池在存储结构上其实是简化的基于数组的消息队列——去掉了队列的读、写下标记录器。池中每个元素是一个消息，并且有一个字节指示每个元素的状态——空闲/已处理、新、半处理。当发送方写入消息时，扫描数组以查找空闲位置；当接收方读取消息时，也是扫描数组以查找状态。可见，消息池是基于优先级来处理消息的——小下标的元素优先得到处理。

消息池的可扫描性实现了消息的并发处理，并且可以通过中断上下文和任务上下文分两次“反刍式”处理。在处理消息池的中断服务例程中，先扫描各消息完成第一次处理，执行消息中(如果有的话)对实时性要求较高的部分。如果系统中没有使用RTOS，可以在后台的主循环中,再接下来二次扫描消息池,以完成第二次处理。对于使用了RTOS的系统，可以根据消息的优先级,创建或激活不同优先级的任务，使消息“附身”在这些任务的上下文中得到第二次处理。

消息池的一大缺点就是不宜支持较大数目的待处理消息。如有需要，可以给每则消息添加链表控制字段，我们可以把同一优先级的消息链成一串，从而彻底消除这一局限。

若干重要的细节

内核互斥：伪并行的多任务之间需要互斥访问共享资源，真并行的内核之间更是如此。尤其关键的是，一个内核无法关闭另一个内核的中断，因此还无法通过关中断临界区来保护。唯一能保证的，就是不会出现两个内核同时存取相同的地址。另外，由于架构上的局限，无法使用“自旋锁”来互斥。为此，我们可以通过施加一些编程准则来实现互斥。最简易有效的方法，就是在相同地址上给每个内核分别设置“只读”或“只写”的权限，或者是有条件的读写权限。比如，对于消息队列的读位置，只有接收方可以写，而发送方只能读取来判断队列是否空/满。又如，对于消息池，尽管发送方和接收方对池中的元素状态均可读可写，但有如下的条件：发送方只能把空闲状态改为非空闲；接收方只能把各种非空闲的状态改为空闲。再如，对于链表结构，可以只允许发送方更新各种指针；接收方通过更改链表中元素的状态和触发中断，以指示发送方更新各指针的时机。内核鉴别：M4向下兼容M0，这使我们可以重用很多的源代码。但是，有时需要鉴别当前正在哪个内核上运行。这有两种方法，分别用于不同场合：如果在编译期间鉴别即可，则可以在编译器设置中，预定义诸如“CORE_M4”和“CORE_M0”的宏，使用C/C++的条件编译来处理；若需要在运行期间区分，可以读取一个名为“CPUID”的寄存器，根据CPUID的值来判定是M4还是M0。

初始化与可执行映像：LPC4350在完成上电复位后，M4开始执行代码，而M0却一直保持在复位状态。这样，我们也可以无视M0的存在，而只按单核MCU来使用。为使用M0，需要让M4为M0准备好开始执行的全部环境，包括寄存器上下文与地址空间等，然后释放M0。当M0处在复位状态时，我们可以通过JTAG发现M0，但是却无法操作它。因此，如果要调试M0的程序，需要先给M4下载适当的映像，使其释放M0才可，不可能在拿到一个空白的芯片后，直接先从M0动手。

尽管M4与M0各有自己的映像，但是我们可以把M0的映像内含于M4的映像中，这样在生产时只需要烧写一次闪存。为了并入M0的映像，工具链通常会提供把映像转换成C数组定义格式的功能。通过这个功能，我们把M0的映像转换成一个C数组的表格，并且把它和M4的源文件一同编译连接，这样一来，M0的映像就嵌入到M4的映像中了。M4在初始化期间，要把M0的映像拷贝到准备让M0执行的位置。由于M0固定从零地址开始取向量，M4还需要设置M0的地址映射，把映像的首地址设置成为M0的零地址。

值得一提的是，这种“主控带动协控”的设计哲学，也是被AMP普遍采用的。

调试时的细节：当我们使用调试仿真器连接MCU时，通常都会产生复位信号，但范围可仅限于内核，也可复位全片。在调试M0时，需设置复位范围仅包括M0，避免殃及正在运行的M4。另外，也需要编写适当的调试初始化脚本，以准备好内核的执行环境。这些工作繁琐，但具有高度的通用性，我们可以借鉴现有的脚本。

我们可以同时调试M4和M0：只需运行两个独立的IDE进程，分别打开相应的工程即可。经实践，至少在MDK+ULINK下可行。

核间任务分工

M0没有M4强大的处理能力，但是作为一个CPU，亦有完整的中断系统和基本的算术与数据传送能力，并且在LPC4350上，可以在高达204MHz的主频下运行。合理地分担一些任务给M0，才能利用双核设计的优势。接下来，我们讨论两种主要的任务分工模型。

处理高频中断——智能“DMA”：中断的响应是有额外开销的：既包括CPU的中断模型本身产生的硬件开销，也包括操作系统的中断管理产生的软件开销，当然，也还有中断服务程序本身执行的开销。当中断的频率很高时(比如：高达几十甚至几百kHz)，中断的响应将对CPU时间产生不可忽略的额外开销。更重要的是，中断的响应是由硬件处理，并凌驾于任务管理之上的，这可以影响任何任务的执行而不论其优先级如何。DMA明显改善了这一状况。但是当DMA通道或总线分配不足，或者是设备不受DMA支持时，我们就可以让M0来响应这些高频的中断，合理组织数据缓冲区，而如同一个智能的DMA一样。

例如：在调光设备中，需要进行多达几十甚至上百路的AD采样来获取每路灯光的预期亮度，以及同样多的LED来指示实际输出的亮度。后者需要非常多的PWM，极可能已超出硬件PWM通道的数目。因此，在实现AD采样与软件PWM时，均需要快速的通道数据流处理与高频LED刷新，以保证PWM精度。这两者很容易导致高达几十kHz的中断请求，仅中断响应的额外开销就可占用一半以上的CPU时间。传统的做法是使用若干颗MCU来分摊并由主控轮询。在LPC4350下，则可由M0来处理这些任务。同样的例子也适用于PLC应用，它需要快速地刷新多路控制。

为弱计算操作提供额外的处理能力：M0的整体性能约是M4的72%，但对于弱计算操作(如：加减乘与逻辑运算，移位，以及简单的数据传送)，并没有太多劣势。弱计算操作在程序中往往占一半以上的比例，尤其体现在驱动程序及一些通信协议栈上。合理地分配一部分弱计算操作任务给M0，可以有效提升整体的处理能力。这样，完成相同的任务只需更低的主频，而降低功耗，或者反过来，能够在有限的主频下完成需求更大的任务。

例如：在高精密工业运动控制中，对于电机的控制往往需要运算量很大的算法，同时又要处理如CAN、工业以太网，以及各种现场总线的通信。我们可以让M4来运行电机控制算法，而通信协议栈与驱动程序则由M0来完成。同样的例子也适用于嵌入式音频——由M4执行音频编解码与音效处理算法，而M0则负责音频总线、USB等事务。

本文小结

通过以上的介绍可以看出，相比传统的使用多颗MCU的方案，非对称双核MCU在性能、成本、功耗、生产等诸多环节都有明显的优势。核间通信稍显复杂，但作为基础设施可由底层系统软件来实现。在具体开发时，应根据实际问题合理分配任务，并且在初始化流程、内核鉴别以及调试上，需注意一些操作细节。

作者：宋岩

高级应用工程师

恩智浦半导体

关键字：非对称双核MCU 系统性能引用地址：应用非对称双核MCU增强系统性能

上一篇：基于CC2530的Zigbee2007／PRO协议的无线温湿度系统设计
下一篇：采用ARM的PWM模块的超声波检测系统的设计

推荐阅读最新更新时间：2024-03-16 13:02

ADI 28nm数模转换器为下一波宽带软件定义系统树立性能基准

eeworld网消息，中国，北京——Analog Devices, Inc. (ADI)最近推出了一款28纳米数模转换器，属于新的高速数模转换器（D/A转换器）系列。AD9172可满足千兆赫兹带宽应用的需求，并且可实现更高的频谱效率以满足4G/5G多频段无线通信基站和2 GHz E-band微波点对点回传平台的需求。其设计还有益于针对多标准直接RF信号合成的生产仪器仪表。此外，AD9172还可为要求较大侦测范围的防务电子应用提供解决方案。基于28纳米CMOS技术，这款器件可提供远优于其他解决方案的一流动态范围、信号带宽以及低功耗，因此树立了新的性能基准。AD9172及整套新模数转换器产品组合将在国际微波技术研讨会上亮相。双通

[半导体设计/制造]

IBM发布用于片上系统设计的最高性能嵌入式处理器

IBM公司于近日发布了具备业界最高性能和最高吞吐率的嵌入式处理器。使用该处理器的片上系统(SoC)产品家族可应用于通讯、存储、消费类、航空航天以及国防等领域。 LSI公司与IBM公司在这一被命名为PowerPC476FP的新款处理器内核的开发上进行了广泛的合作。并且，LSI计划在其下一代网络应用的多核平台架构中使用这一新型的PowerPC内核。 PowerPC 476FP的时钟频率超过1.6GHz，并可达到2.5 Dhrystone MIPS/MHz性能。相较于IBM现有用于OEM市场的最先进的嵌入式核(PowerPC464FP)，其超出两倍的性能使PowerPC 476FP定位为目前业界已发布的可用于SoC

[嵌入式]

误差矢量幅度(EVM)测量怎样提高系统级性能

误差矢量幅度(EVM)测量怎样提高系统级性能误差矢量幅度(EVM)是广为使用的系统级性能指标，许多通信标准将其定义为用于无线局域网(WLAN 802.11)、移动通信(4G LTE、5G)等应用的合规性测试。除此之外，它还是一个极为有用的系统级指标，可通过简单易懂的值来量化系统中所有潜在损害的综合影响。大多数射频工程师都会接受有关大量射频性能参数的培训，例如噪声系数、三阶截取点和信噪比。了解这些性能参数对整体系统级性能的综合影响可能极具挑战性。EVM不评估多个单独的性能指标，而是反映整个系统的概况。在本文中，ADI将分析较低水平的性能参数如何影响EVM，并研究一些将EVM用于器件系统级性能优化的实际示例。同时展示如

[模拟电子]

误差矢量幅度(EVM)测量怎样提高<font color='red'>系统</font>级<font color='red'>性能</font>

具集成型VCO的高性能整数N频率合成器改善了系统性能

加利福尼亚州米尔皮塔斯 (MILPITAS, CA) – 2011 年 9 月 28 日 – 凌力尔特公司 (Linear Technology Corporation) 推出一个具集成型 VCO 的高性能整数 N 频率合成器系列中的首款器件 LTC6946，该器件可提供 -226dBc/Hz 归一化闭环带内相位噪声、绝佳的 -274dBc/Hz 归一化带内 1/f 噪声和同类最佳的 -103dBc 杂散输出。在典型的 900MHz 应用中，这些性能特征有助在 1kHz 偏移频率下实现一个 -100dBc/Hz 的闭环相位噪声。该器件可提供三种频率选项：LTC6946-1 的调谐范围从 2.240GHz 至 3.740GHz；LT

[电源管理]

电子部件性能测试系统

概述电子部件是家电、汽车、消费电子等产品的重要部件，电子部件一旦发生故障或性能不达标，将导致产品整体故障，故障率高时，会严重损毁企业声誉。因此，电子部件性能测试非常普遍，且十分关键。目前，电子部件大多产量大、待检参数繁杂，依靠人工检测不能确保产品出厂合格率，电子部件性能测试系统可高效完成电子部件多项参数的检测，包括电压、电流、电阻、电容量、电感量、时间特性、程序正确性、功能完整性、频响特性等。凭借多年军工电子部件测试经验，领邦仪器研制的测试系统稳定可靠，数据准确全面；同时，领邦提供定制化服务，令测试设备无缝接入现有工况，积极响应客户特有需求。设备外观图软件界面图

[测试测量]

SiGe提升Wi-Fi®系统性能的功率放大器

2008 年 4 月 17 日， SiGe 半导体公司 (SiGe Semiconductor) 现已推出一款全新功率放大器 SE 2587L ，该器件经特别设计，能够优化 Wi-Fi 系统的性能，是接入点、个人电脑和 PC 卡的理想选择。新推出的 SE 2587L 功率放大器乃基于 SiGe 半导体经验证的架构，在业界 +19dBm ( 802.11g 模式 ) 和 +24dBm (802.11b 模式 ) 发射功率级下，能够提供出色的线性度。这种高线性度可在更大的覆盖距离内提供更高数据率的传输能力，使系统能够支持新兴的无线多媒体应用，

[新品]

嵌入式实时操作系统性能测试方法研究

引言随着计算机技术的迅速发展和芯片制造工艺的不断进步，ERTOS的研究和应用日益广泛，从民用的手机、电子书等手持移动设备到航空航天、医学设备、工业控制等各个领域都有它的身影。然而，在设计和选择ERTOS时，如何确定其是否能够满足所需的应用成为一个棘手的问题，必须用一种有效的方法对它们的各个方面进行对比测试，以选择符合要求的系统。本文首先分析三种常用的系统实时性能测试方法，接着介绍一套测试实验平台，对于ERTOS的测试和分析有一定的指导意义。 1 Rheaostone方法 Rhealstone方法对ERTOS中六个关键操作的时间量进行测量，并将它们的加权和称为Rhealstone数。这六个时间量如下： ◆任务切换

[嵌入式]

谷歌创建子AI系统性能远超其他视觉系统

此前，谷歌曾推出一个AI系统“AutoML（自动机器学习）”，目的是通过训练AI让其能够自主创建其他AI系统。目前，AutoML已经研发出了一个计算机视觉系统，而事实证明，这套系统的性能远远领先于其他最先进的模型智能系统。谷歌用AI创建了一个子AI系统，还在测试中打败了人类创建的AI系统 NASNet架构由两种类型的层组成：正常层（左侧）和缩小层（右侧）在此次实验中，研究人员让AutoML所创建的子AI网络NASNet完成对录像中人物、汽车、交通信号灯、手提包和背包等物体的实时识别。谷歌研究员称，ImageNet图像分类和COCO物体检测数据集为“计算机视觉领域公认的两大深度学习数据集”。基于这两大数据集上进行测试时，

[安防电子]