GPU PK CPU,到底哪个最强

发布者:DelightfulGaze最新更新时间:2021-02-04 来源: 21IC关键字:GPU  CPU 手机看文章 扫描二维码
随时随地手机看文章

GPU在现在的应用中越来越重要,对于GPU,我们都具备些许了解,因为不论是手机中、还是电脑里面,都有GPU的身影。为增进大家对GPU的认识程度,本文将探讨一下GPU和CPU,看看谁的优势更大。此外,小编还将对GPU加速原理予以介绍。如果你对GPU具有兴趣,不妨继续往下阅读哦。 

                                              image.png 

一、GPU与CPU孰强孰弱?

 

GPU是替代不了CPU的,同样,CPU也替代不了GPU。如果形象点理解,GPU就像一群蚂蚁,这些蚂蚁都做着同样的事,而CPU就像一只猴子,这只猴子做着各种不同的事。从根本上说CPU和GPU它们的目的不同,且有不同侧重点,也有着不同的性能特性,在某些工作中CPU执行得更快,另一工作中或许GPU能更好。

 

image.png

 

当你需要对大量数据做同样的事情时,GPU更合适,当你需要对同一数据做很多事情时,CPU正好。

 

然而在实际应用中,后一种情形更多,也就是CPU更为灵活能胜任更多的任务。GPU能做什么?关于图形方面的以及大型矩阵运算,如机器学习算法、挖矿、暴力破解密码等,GPU会有所帮助。

 

简单地说,CPU擅长分支预测等复杂操作,GPU擅长对大量数据进行简单操作。一个是复杂的劳动,一个是大量并行的工作。

 

其实GPU可以看作是一种专用的CPU,专为单指令在大块数据上工作而设计,这些数据都是进行相同的操作。

 

要知道处理一大块数据比处理一个一个数据更有效,执行指令开销也会大大降低,因为要处理大块数据,意味着需要更多的晶体管来并行工作,现在旗舰级显卡都是百亿以上的晶体管。

 

CPU呢,它的目的是尽可能快地在单个数据上执行单个指令。由于它只需要使用单个数据单条指令,因此所需的晶体管数量要少得多。

 

目前主流桌面CPU晶体管都是十亿以下,和顶级GPU相差十倍以上,但它需要更大的指令集,更复杂的ALU(算术逻辑单元),更好的分支预测,更好的虚拟化架构、更低的延迟等等。

 

另外,像我们的操作系统Windows,它是为x86处理器编写的,它需要做的任务执行的进程,在CPU上肯定更为高效,你想每个线程的任务并不相同,基本上难以并行化,完全发挥不了GPU的长处。

 

那么,可以预见在未来,随着CPU进一步强化处理数据块的能力,我们将看到CPU和GPU架构之间的融合,而且随着制造技术的进步和芯片的缩小,GPU也可以承担更复杂的指令。

 

二、GPU加速原理

 

GPU一推出就包含了比CPU更多的处理单元,更大的带宽,使得其在多媒体处理过程中能够发挥更大的效能。例如:当前最顶级的CPU只有4核或者6核,模拟出8个或者12个处理线程来进行运算,但是普通级别的GPU就包含了成百上千个处理单元,高端的甚至更多,这对于多媒体计算中大量的重复处理过程有着天生的优势。下图展示了CPU和GPU架构的对比。

 

image.png

 

从硬件设计上来讲,CPU由专为顺序串行处理而优化的几个核心组成。另一方面,GPU则由数以千计的更小、更高效的核心组成,这些核心专为同时处理多任务而设计。

 

image.png

 

通过上图我们可以较为容易地理解串行运算和并行运算之间的区别。传统的串行编写软件具备以下几个特点:要运行在一个单一的具有单一中央处理器(CPU)的计算机上;一个问题分解成一系列离散的指令;指令必须一个接着一个执行;只有一条指令可以在任何时刻执行。而并行计算则改进了很多重要细节:要使用多个处理器运行;一个问题可以分解成可同时解决的离散指令;每个部分进一步细分为一系列指示;每个部分的问题可以同时在不同处理器上执行。

 

举个生活中的例子来说,你要点一份餐馆的外卖,CPU型餐馆用一辆大货车送货,每次可以拉很多外卖,但是送完一家才能到下一家送货,每个人收到外卖的时间必然很长;而GPU型餐馆用十辆小摩托车送货,每辆车送出去的不多,但是并行处理的效率高,点餐之后收货就会比大货车快很多。

关键字:GPU  CPU 引用地址:GPU PK CPU,到底哪个最强

上一篇:u-blox 推出微型蜂窝通信模块,集成蜂窝+GNSS技术
下一篇:芯片正在成为世界经济“新石油”

推荐阅读最新更新时间:2024-11-11 09:21

CPU得解放 NVIDIA PureVideo技术解析
     随着高清视频的普及,越来越多的用户开始关注起高清新技术的应用。虽然,目前主流的CPU配合软件可以较好的对高清视频进行软解码播放,但其较高的处理器占用率却使得用户在观看视频的同时无法再进行其他后台操作。面对如今越来越注重使用感受和操作效率的消费者来说,NVIDIA  PureVideo 技术无疑是解决这一尴尬境地的最好解决方案。       NVIDIA PureVideo技术是通过NVIDIA GPU(图形处理器)和NVIDIA应用处理器中的专用视频处理核心来实现的。这种处理核心只占用极少的CPU使用率,使用极低的功耗,就可以提供极佳的视频影像。说到这里,相信大家一定回想起了第一代的PureVideo 加速技术,
[嵌入式]
GPU IP成为行动SoC差异化关键
    随着半导体制程进展到28/20奈米世代,制造与设计能力间的落差也越来越大。晶片设计人员为了能在最短时间内将更多样的功能整合到系统单晶片(SoC)中,采用第三方业者提供的矽智财(SIP),而非自行开发,已逐渐成为一种趋势。透过运用高品质、完整的第三方IP解决方案,晶片设计人员能将资源专注于开发具差异化特性的产品,包括连结各种IP模块的设计方式。因此,这已使得SIP市场近年来成长的快速。 附图 : 结合CPU与GPU的架构能进一步提升效能与降低功率 BigPic:400x283 根据研究机构Markets and Markets发布的数据,全球SIP市场营收预计将从2012年的25亿美元到2017年成长到57亿美元,年复合成
[手机便携]
基于CPCI总线CPU主控模块的设计与实现
  在一些特定的条件(如恶劣环境、军事应用环境条件)下应用的计算机比普通商用计算机一般在以下方面有更高、更严的要求:气候、机械和电磁环境适应性好,可靠性、可用性、可维修性好,可操作性、人机交互性能,体积小、重量轻、功耗低,可扩展性、升级方便和使用周期长。有时在一些应用场合还会有一些特定要求,如对用户接口种类和数量的要求等。   在很难找到满足特定要求的商用计算机,即使利用成熟商用计算机进行后天加固也难以满足特定要求的情况下,为此需自行研制满足特定要求的加固计算机。这里介绍加固计算机基于CPCI总线CPU主控模块的设计方案。   Compact PCI(简称CPCI)总线是“PCI总线工业计算机制造商组织”推出的一种工业计算机总线
[嵌入式]
STM8与汇编语言(13)--修改CPU的时钟
在有些单片机的应用系统中,并不需要CPU运行在多高的频率。在低频率下运行,芯片的功耗会大大下降。因此希望单片机能提供这个功能,STM8单片机确实有这个功能,并且修改也非常方便。 下面的实验程序首先将CPU的运行时钟设置在8MHZ,然后快速闪烁LED指示灯。接着,通过修改主时钟的分频系数和CPU时钟的分频系数,将CPU时钟频率设置在500KHZ,然后再慢速闪烁LED指示灯。通过观察LED指示灯的闪烁频率,可以看到,同样的循环代码,由于CPU时钟频率的改变,闪烁频率和时间长短都发生了变化。 同样还是利用ST的开发工具,生成一个汇编程序的框架,然后修改其中的main.asm,修改后的代码如下。 stm8/ #inc
[单片机]
Intersil推出针对应用处理器、GPU、FPGA以及系统电源的PMIC
T和可编程PWM频率有助于工程师使用更少的外部元件,实现比竞争解决方案小40%的50mm2电源。ISL91211三、四输出PMIC是采用单芯锂离子电池或2.5V – 5.5V电源供电的智能手机、平板电脑、固态硬盘、网络和无线物联网(IoT)设备的理想选择。 ISL91211利用Intersil的最新R5™调制技术,在负载瞬变期间提供业内最快的单周期瞬态响应和最高的开关频率(4MHz)。在ISL91211调整输出电压时静态电流仅为62μA。该PMIC的优异轻负载效率、调整精度和快速动态响应有助于延长电池续航时间。 ISL91211 PMIC包括高效的同步降压转换器,这些转换器支持多相和单相工作模式,并提供最大5A每相连续输出
[半导体设计/制造]
面向高性能计算和人工智能聚焦VDI的GPU部署
本文由Rhett Dillingham发表于Forbes的文章翻译整理而成。 NVIDIA发展势头正劲,其数据中心的增长尤为显著。数据中心大部分营收增长归功于NVIDIA最新GPU在高性能计算(HPC)和人工智能(AI)中的应用,其在超大规模云和大型企业级基础架构领域取得了成功。与此同时,GPU在VDI市场中的应用不断增加,将可能成为营收增长的另一驱动因素。 多年以来,GPU一直被用于企业级VDI部署,且一直以来都是图形密集型设计和工程负载的附加组件。然而,由于图形和视频在常见生产力类应用中的使用大量增加,对于众多传统知识型岗位工作者来说,GPU已经成为其VDI解决方案必不可少的组成。NVIDIA一直是面向VDI的GPU行
[网络通信]
AMD提到了“身历其境运算”,具体指什么?
“运算性能的下一个阶段进展,特别是对消费者来说,实际上是环绕着“身历其境运算” (immersive computing),以及我们所有人生活周遭数不清的连网装置。” AMD 执行长苏姿丰(Lisa Su)在日前于美国旧金山举行的2017年度EEE国际电子元件会议(IEDM)上,呼吁产业界共同努力满足对更高运算性能的需求,以持续改善终端使用者体验并协助解决部份世界上最困难的问题。 苏姿丰在IEDM发表专题演说时指出,维持创新步伐已经使得 运算技术 性能有大幅度提升,这不只需要半导体制程技术的不断演进,也需要系统零组件更佳的整合,以及微架构效率、电源管理、记忆体整合以及软体等各方面技术的改善。 她并指出:“运算性能的下一个阶段
[嵌入式]
第一时间适配!英特尔锐炫GPU在运行Llama 3时展现卓越性能
在Meta发布Llama 3大语言模型的第一时间,英特尔即优化并验证了80亿和700亿参数的Llama 3模型能够在英特尔AI产品组合上运行。 在客户端领域,英特尔锐炫™显卡的强大性能让开发者能够轻松在本地运行Llama 3模型,为生成式AI工作负载提供加速。 在Llama 3模型的初步测试中,英特尔®酷睿™Ultra H系列处理器展现出了高于普通人阅读速度的输出生成性能,而这一结果主要得益于其内置的英特尔锐炫GPU,该GPU具有8个Xe核心,以及DP4a AI加速器和高达120 GB/s的系统内存带宽。 英特尔酷睿Ultra处理器和英特尔锐炫显卡在Llama 3模型发布的第一时间便提供了良好适配,这彰显了英特尔和M
[网络通信]
第一时间适配!英特尔锐炫<font color='red'>GPU</font>在运行Llama 3时展现卓越性能
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved