多核处理器的九大关键技术-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

与单核处理器相比，多核处理器在体系结构、软件、功耗和安全性设计等方面面临着巨大的挑战，但也蕴含着巨大的潜能。

CMP和SMT一样，致力于发掘计算的粗粒度并行性。CMP可以看做是随着大规模集成电路技术的发展，在芯片容量足够大时，就可以将大规模并行处理机结构中的SMP（对称多处理机）或DSM（分布共享处理机）节点集成到同一芯片内，各个处理器并行执行不同的线程或进程。在基于SMP结构的单芯片多处理机中，处理器之间通过片外Cache或者是片外的共享存储器来进行通信。而基于DSM结构的单芯片多处理器中，处理器间通过连接分布式存储器的片内高速交叉开关网络进行通信。由于SMP和DSM已经是非常成熟的技术了，CMP结构设计比较容易，只是后端设计和芯片制造工艺的要求较高而已。正因为这样，CMP成为了最先被应用于商用CPU的“未来”高性能处理器结构。

虽然多核能利用集成度提高带来的诸多好处，让芯片的性能成倍地增加，但很明显的是原来系统级的一些问题便引入到了处理器内部。

1 核结构研究: 同构还是异构

CMP的构成分成同构和异构两类，同构是指内部核的结构是相同的，而异构是指内部的核结构是不同的。为此，面对不同的应用研究核结构的实现对未来微处理器的性能至关重要。核本身的结构，关系到整个芯片的面积、功耗和性能。怎样继承和发展传统处理器的成果，直接影响多核的性能和实现周期。同时，根据Amdahl定理，程序的加速比决定于串行部分的性能，所以，从理论上来看似乎异构微处理器的结构具有更好的性能。

核所用的指令系统对系统的实现也是很重要的，采用多核之间采用相同的指令系统还是不同的指令系统，能否运行操作系统等，也将是研究的内容之一。

2 程序执行模型

多核处理器设计的首要问题是选择程序执行模型。程序执行模型的适用性决定多核处理器能否以最低的代价提供最高的性能。程序执行模型是编译器设计人员与系统实现人员之间的接口。编译器设计人员决定如何将一种高级语言程序按一种程序执行模型转换成一种目标机器语言程序; 系统实现人员则决定该程序执行模型在具体目标机器上的有效实现。当目标机器是多核体系结构时，产生的问题是: 多核体系结构如何支持重要的程序执行模型？是否有其他的程序执行模型更适于多核的体系结构？这些程序执行模型能多大程度上满足应用的需要并为用户所接受？

3 Cache设计: 多级Cache设计与一致性问题

处理器和主存间的速度差距对CMP来说是个突出的矛盾，因此必须使用多级Cache来缓解。目前有共享一级Cache的CMP、共享二级Cache的CMP以及共享主存的CMP。通常，CMP采用共享二级Cache的CMP结构，即每个处理器核心拥有私有的一级Cache，且所有处理器核心共享二级Cache。

Cache自身的体系结构设计也直接关系到系统整体性能。但是在CMP结构中，共享Cache或独有Cache孰优孰劣、需不需要在一块芯片上建立多级Cache，以及建立几级Cache等等，由于对整个芯片的尺寸、功耗、布局、性能以及运行效率等都有很大的影响，因而这些都是需要认真研究和探讨的问题。

另一方面，多级Cache又引发一致性问题。采用何种Cache一致性模型和机制都将对CMP整体性能产生重要影响。在传统多处理器系统结构中广泛采用的Cache一致性模型有: 顺序一致性模型、弱一致性模型、释放一致性模型等。与之相关的Cache一致性机制主要有总线的侦听协议和基于目录的目录协议。目前的CMP系统大多采用基于总线的侦听协议。

4 核间通信技术

CMP处理器的各CPU核心执行的程序之间有时需要进行数据共享与同步，因此其硬件结构必须支持核间通信。高效的通信机制是CMP处理器高性能的重要保障，目前比较主流的片上高效通信机制有两种，一种是基于总线共享的Cache结构，一种是基于片上的互连结构。

总线共享Cache结构是指每个CPU内核拥有共享的二级或三级Cache，用于保存比较常用的数据，并通过连接核心的总线进行通信。这种系统的优点是结构简单，通信速度高，缺点是基于总线的结构可扩展性较差。

基于片上互连的结构是指每个CPU核心具有独立的处理单元和Cache，各个CPU核心通过交叉开关或片上网络等方式连接在一起。各个CPU核心间通过消息通信。这种结构的优点是可扩展性好，数据带宽有保证; 缺点是硬件结构复杂，且软件改动较大。

也许这两者的竞争结果不是互相取代而是互相合作，例如在全局范围采用片上网络而局部采用总线方式，来达到性能与复杂性的平衡。

5 总线设计

传统微处理器中，Cache不命中或访存事件都会对CPU的执行效率产生负面影响，而总线接口单元（BIU）的工作效率会决定此影响的程度。当多个CPU核心同时要求访问内存或多个CPU核心内私有Cache同时出现Cache不命中事件时，BIU对这多个访问请求的仲裁机制以及对外存储访问的转换机制的效率决定了CMP系统的整体性能。因此寻找高效的多端口总线接口单元（BIU）结构，将多核心对主存的单字访问转为更为高效的猝发（burst）访问; 同时寻找对CMP处理器整体效率最佳的一次Burst访问字的数量模型以及高效多端口BIU访问的仲裁机制将是CMP处理器研究的重要内容。

6 操作系统设计: 任务调度、中断处理、同步互斥

对于多核CPU，优化操作系统任务调度算法是保证效率的关键。一般任务调度算法有全局队列调度和局部队列调度。前者是指操作系统维护一个全局的任务等待队列，当系统中有一个CPU核心空闲时，操作系统就从全局任务等待队列中选取就绪任务开始在此核心上执行。这种方法的优点是CPU核心利用率较高。后者是指操作系统为每个CPU内核维护一个局部的任务等待队列，当系统中有一个CPU内核空闲时，便从该核心的任务等待队列中选取恰当的任务执行，这种方法的优点是任务基本上无需在多个CPU核心间切换，有利于提高CPU核心局部Cache命中率。目前多数多核CPU操作系统采用的是基于全局队列的任务调度算法。

多核的中断处理和单核有很大不同。多核的各处理器之间需要通过中断方式进行通信，所以多个处理器之间的本地中断控制器和负责仲裁各核之间中断分配的全局中断控制器也需要封装在芯片内部。

另外,多核CPU是一个多任务系统。由于不同任务会竞争共享资源，因此需要系统提供同步与互斥机制。而传统的用于单核的解决机制并不能满足多核，需要利用硬件提供的“读－修改－写”的原子操作或其他同步互斥机制来保证。

7 低功耗设计

半导体工艺的迅速发展使微处理器的集成度越来越高，同时处理器表面温度也变得越来越高并呈指数级增长，每三年处理器的功耗密度就能翻一番。目前，低功耗和热优化设计已经成为微处理器研究中的核心问题。CMP的多核心结构决定了其相关的功耗研究是一个至关重要的课题。

低功耗设计是一个多层次问题，需要同时在操作系统级、算法级、结构级、电路级等多个层次上进行研究。每个层次的低功耗设计方法实现的效果不同——抽象层次越高，功耗和温度降低的效果越明显。

8 存储器墙

为了使芯片内核充分地工作，最起码的要求是芯片能提供与芯片性能相匹配的存储器带宽，虽然内部Cache的容量能解决一些问题，但随着性能的进一步提高，必须有其他一些手段来提高存储器接口的带宽，如增加单个管脚带宽的DDR、DDR2、QDR、XDR等。同样，系统也必须有能提供高带宽的存储器。所以，芯片对封装的要求也越来越高，虽然封装的管脚数每年以20%的数目提升，但还不能完全解决问题，而且还带来了成本提高的问题，为此，怎样提供一个高带宽，低延迟的接口带宽，是必须解决的一个重要问题。

9 可靠性及安全性设计

随着技术革新的发展，处理器的应用渗透到现代社会的各个层面，但是在安全性方面却存在着很大的隐患。一方面，处理器结构自身的可靠性低下，由于超微细化与时钟设计的高速化、低电源电压化，设计上的安全系数越来越难以保证，故障的发生率逐渐走高。另一方面，来自第三方的恶意攻击越来越多，手段越来越先进，已成为具有普遍性的社会问题。现在，可靠性与安全性的提高在计算机体系结构研究领域备受注目。

今后，CMP这类处理器芯片内有多个进程同时执行的结构将成为主流，再加上硬件复杂性、设计时的失误增加，使得处理器芯片内部也未必是安全的，因此，安全与可靠性设计任重而道远。

关键字：并行容量工艺程序编辑：引用地址：https://news.eeworld.com.cn/news/control/200706/14302.html

上一篇：面对多核 “真”的就一定比“假”的好？
下一篇：软件支持成“软肋” 发展多核困惑重重

推荐阅读

中兴2022：三大品牌并行发挥各自优势目标国内营收增200%

1月20日上午消息，近日中兴终端举行媒体沟通会，中兴通讯高级副总裁、终端事业部总裁倪飞，中兴终端事业部中国区产品总经理张雷，努比亚技术有限公司高级副总裁余航等高管通过线上方式与媒体沟通。　　本次会上重点介绍中兴终端旗下三个品牌，中兴，努比亚，红魔在过去一年的成绩，以及在未来2022年的战略和具体动作。　　过往这一年　　倪飞在开场发言中提到，2021年，中兴终端实现了高速增长，终端出货量超过1亿（包括智能手机，家庭终端，无线互联设备等），消费者业务出货量增长60%，国内出货量增长150%，海外增长50%。　　在提到这些数据时候，倪飞坦言，“当然我们也清楚地认识到，中兴目前体量相比头

发表于 2022-01-20

小米12系列影像系统解密：重写整个相机架构，异构/并行运

进行赋能，将 CPU、GPU、DSP、ISP 等多个模块的计算能力进行整合与充分调度，让整个过程并行协同，从而达到大幅提升速度的优化效果。计算单元则是通过强大的计算摄影能力，调用先进算法进行画质上的调优，比如多帧合成、降噪算法、去伪色算法、白平衡校准等等，让画面变得更加清晰自然，从而达到接近甚至超越传统光学摄影的效果。生态引擎则是打通了硬件到第三方应用的管道，将小米影像大脑的能力通过小米自有 SDK 开放给第三方，这样让第三方应用未来也能够调用小米影像大脑的能力，从而达到画质调优，速度提升的效果。　　官方表示，小米 12 系列相机启动速度快了 21.2%，拍照速度也快了 53.7%，连续拍照更是快了 209%，夜景拍照速度同样也快了

发表于 2022-01-08

基于51单片机的8255 并行 I/O 扩展实验Proteus仿真

1、了解单片机地址译码。 2、了解 8255 芯片结构及编程方法。3、了解 8255 输入、输出实验方法。4、熟悉 proteus 环境仿真电路的调试方法。实验流程图如下：实验仿真图如图：

发表于 2021-12-08

基于51单片机的8255 <font color='red'>并行</font> I/O 扩展实验Proteus仿真

51单片机并行接口P0～P3

前言学习51单片机，IO口可以说是重中之重，在应用设计中应该理解，计算机内部是由数字电路组成的，只存在TTL电平，高电平3.5V~5V和低电平0V对应数字1和0，外设的状态输入要通过电路转换成高低电平，计算机才能识别。根据外设的需要的电平输出1或0，这就是程序控制外设的核心。根据外设的需要的电平输出1或0，这就是程序控制外设的核心。一、并行接口P0① 并口与数据存储器统一编址，作为数据存储器的特殊功能寄存器来访问，寄存器名分别为：P0、P1、P2、P3；② P0、P1、P2、P3各对应8位双向I/O口，每个端口可以按字节输入或输出，也可以按位进行输入或输出，四个口共32根口线，用作位控制十分方便；③ P0、P1、P2、P3均可

发表于 2021-12-03

51单片机实现两片联级74HC595多任务并行处理两路跑马灯

一、使用proteus绘制简单的电路图，用于后续仿真二、编写程序/********************************************************************************************************************---- @Project: LED-74HC595---- @File: main.c---- @Edit: ZHQ---- @Version: V1.0---- @CreationTime: 20200528---- @ModifiedTime: 20200528---- @Description: 第一路独立运行的任务是：第1个至第8

发表于 2021-11-10

51单片机实现两片联级74HC595多任务<font color='red'>并行</font>处理两路跑马灯

ARM串行通信与并行通信介绍

计算机的通信（数据交换）方式主要是分为：串行通信与并行通信串行通信概念：计算机与I/O设备之间数据传输的各位是按顺序依次一位接一位进行传送。通常数据在一根数据线或一对差分线上传输。特点：传输速度慢，使用的设备成本低，适用于计算机远程通信。并行通信概念：计算机与I/O设备之间通过多条传输线交换数据，数据的各位同时进行传送。特点：传输速度快、效率高，传输成本高，适用于近距离的数据传送。串行通信（按照数据传送方向）单工（simplex)半双工（half duplex)全双工(full duplex)波特率概念单位时间传输二进制数据的位数，单位比特(bit/s或bps)，表示每秒传输多少位，是一个衡量数据传输速率的量。异步串行通信概念

发表于 2021-11-01

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■验证并选择心仪MOSFET，探寻选型奥秘！注册、体验双重好礼等你拿~

■评论有奖：元器件采购的秘密法宝，助你做个自带“松弛感”的职场人！

■新栏目器件口碑专辑上线~快来点评吧！

■中星联华直播 | 高速信号完整性分析与测试 — “码”上行动系列线上讲堂