多核的误区 手机GPU各指标参数揭秘

发布者:温柔心情最新更新时间:2014-04-12 来源: 驱动之家关键字:多核  GPU  指标参数  揭秘 手机看文章 扫描二维码
随时随地手机看文章
    高级图形处理器在进行推广时通常比较多个低级别性能指标。例如,Imagination PowerVR GPU比较常用的比较指标为GFLOPS (测量计算吞吐量) ,每秒三角形生成数量(测量几何吞吐量),每秒像素数填充和每秒纹理数(测量填充率) 。

  除了这些较为传统的指标,企业开始按照产品中所包含的内核数量来说明架构已经较为常见。尽管按照既定状况来说,内核数量的含义已经被GPU市场曲解。也就是说,这个词语具有延展性,经过一段时间这个词语在反映常见功能方面已经有所更新。我来说明内核数量的常见意义。

  什么是内核?

  这要依据实际情况而定。内核数量的意义在以前是表示处理器前端的数量。内核并不复杂,前端的作用是调度执行线程。几乎所有高级GPU都已经简化设计,在计算资源前端设置多个调度器和相关调度逻辑,执行预订的任务。

  每个调度器跟踪数个需要执行的线程,在单个时钟周期中运行单个程序的单一指令。单个指令指标的作用是在一组算资源上运行程序,不考虑线程数量或者计算资源的共享方式,这是内核的通常定义。

  但是,我们也用这个内核来说明Series5 SGX GPU的整个状况。例如在SGX544MP3中,共有SGX544MP3的3个完整例程—可以复用所有GPU资源,我们称之为MP3配置,或者叫3核 GPU。

  多核的误区

  因此,随着高级移动系统中CPU内核数量迅速增加, GPU厂商要表达的信息是GPU也是多核设计,我们的许多竞争对手将独立的ALU流水线视作内核以强调其优势。但这些ALU流水线不能实现完全独立的相互 调度,这些流水线与SIMD模式中的流水线一样每个时钟周期运行同一指令。并未出现我们所指的独立前端或独立指令指针,但尽管如此市场依然称其为一个内 核。

  我们按照同样的方式从基本的构建模块---统一着色器集群(Unified Shading Cluster,USC)到独立流水线来说明PowerVR Rogue,来看一下如何计算内核数量。

  PowerVR Rogue USC

  Rogue的架构是由多个模块构建而成,这些模块称为统一着色器集群,简称USC。我们扩展这个架构来满足客户对GPU的需求,以支持系统级芯片及专门的细分市场,我们将数个USC以及其他相关资源连接在一起后集成在整个GPU IP上。

  打开USC,您会发现用于分析数据并得出结果的是数个ALU流水线。我们并行设置这些流水线,每个USC设置16个流水线。这样设置的原因是,图像 呈并行处理,其中多个相关的数据,通常是矢量或像素同时运行。事实上,高级像素着色的属性驱动相关像素是并行的,因此有必要同时运行这些高级像素。

  标量SIMD执行和矢量低效

  USC的关键属性是按照标量模式处理数据。也就是说对于给定的工作项目,例如一个象素,USC不是在同一时钟周期内的同一独立管道上同时执行红、 绿、蓝和透明度的矢量。相反, USC在一个时钟周期内执行一个红色组件,接下来执行蓝色组件,以此类推,直到执行完所有组件。为实现矢量基准单位的峰值吞吐量,标量SIMD单元并行处 理多个工作项目。例如,每个时钟周期内处理一个像素的4-wide矢量的峰值吞吐量相当于4-wide 标量SIMD单元,可在每个时钟周期内处理四个像素。



  表面上看这两种方法的吞吐量相同。但是,高级GPU负载通常由使用许多不同数据宽度的数据组成。例如,通常颜色数据宽度为4 ( ARGB ),而纹理坐标的数据宽度通常为2 ( UV),还有许多标量实例( 1个组件)处理,如典型的光照计算一样。

  在光照计算中,如果数据处理没有填满整个矢量宽度时,就会浪费矢量处理器宝贵的计算资源。在标量架构中,正执行的运算采用一种运算类型,在同一时间 运行一个组件,并行处理同一任务。例如着色处理中完全由标量处理组成,在4-wide矢量架构中执行25%的任务,而在标量SIMD架构中本应执行 100%的任务。

  多个低功耗ALU!

  我们再来说说USC并行任务中的独立流水线。共有16个流水线,每个流水线内部实际上存在数个执行任务的ALU。即2个FP32 ALU,2个FP16 ALU,以及1个专用函数ALU 。

  为什么使用专用FP16 ALU?主要是为了节省功耗同时也是为了提高性能。与FP32 ALU相比,简化ALU逻辑复杂度可以较低功耗执行FP16指令组,同时可执行更多的运算,在每个时钟周期实现更高的吞吐量。稍后您就会明白。

  在高级图像渲染中以较低精度计算可能需要耗费较多时间,而APIs Rogue力求在所有通用图形中支持混合精度运算,其中包括Direct3D 11,以及更常见的OpenGL ES2和ES3 APIs。在嵌入式图形运算中没有构建混合精度计算流水线是个错误,原因是执行混合精度工作量会造成功率放大。

  性能和功能

  各个ALU的功能并不一样,我们来看一下每个ALU的作用,以便了解其性能:

  PowerVR Series6, Series6XT和Series6XE中的FP32 ALU能够在每个时钟周期执行2浮点运算。每个USC即每个时钟周期的64 FLOP峰值。



  PowerVR Series6 GPU内共有最多8个统一着色集群( USC )

  PowerVR Series6 GPU中的FP16 ALU能够在能够在每个时钟周期执行最高3浮点运算,我们在Series6XE和Series6XT 改进了FP16 ALU可在每个时钟周期执行最高4浮点运算。按照不同的产品和系列,每个USC在每个时钟周期执行高达128浮点运算。升级型Series6XE和 Series6XT更为灵活,执行流水线部分运算的编译器更为容易。



  PowerVR Series6XT GPU内共有最多8个Unified Shading Clusters( USC )

  最后来说一下具有专用功能的ALU,ALU可处理更复杂的算法和三角运算,如正弦、余弦、对数、倒数和亲和数、标量运算。按照这些运算的性质,设置了ALU输出精度和性能。

  增强ALU内核配置

  现在,我已经说明从构建USC块到利用16个并行管道执行任务来说明Rogue计算架构,各个管道有较大的专用计算资源,我们按照竞争对手的方式来 说明内核。每个USC包括:32 FP32 ALU内核,高达64个FP16 ALU内核、16 个USC专用函数ALU内核。

  按照同样的方式将Rogue与市场竞争产品比对,ALU内核这个术语很重要,我们希望大家尽可能按这条思路来解释内核。

  最后,请记住,Imagination根据不同的产品Series6, Series6XT和Series6XE设置1对多的USC。以下为两个实例:

  PowerVR G6230: 两个Series6 USC-64 FP32 ALU内核,每个时钟周期执行高达128 FLOP – 64 FP16 ALU 内核,每个时钟周期执行高达192 FLOP。也就是按照600MHz的频率执行高达115.2 FP16 GFLOPS及高达76.8 FP32 GFLOPS。



  PowerVR GX6650: 六个Series6XT USC-192 FP32 ALU内核,每个时钟周期执行高达384 FLOP –384FP16 ALU 内核,每个时钟周期执行高达786 FLOP。也就是按照600MHz的频率执行高达460.8FP16 GFLOPS及高达230.4 FP32 GFLOPS。





关键字:多核  GPU  指标参数  揭秘 引用地址:多核的误区 手机GPU各指标参数揭秘

上一篇:诺基亚推MixRadio音乐服务:无需注册一点即用
下一篇:何为堆栈式镜头 手机摄像头传感器解析

推荐阅读最新更新时间:2024-05-03 13:53

华为公布GPU Turbo 2.0 平均触控响应延迟时间降36%
    在宣布全新的EMUI 9.0系统的同时,华为官方还公布了“吓人技术”的升级版——GPU Turbo 2.0!   按照官方的说法,GPU Turbo 2.0在游戏场景的触控体验和游戏助手的功能体验上都得到了显著提升,平均触控响应延迟时间降低36%。   GPU Turbo是一种软硬协同的图形加速技术,能够提高手机GPU的性能,图形处理效率提高60%。GPU Turbo最早与今年6月公布,目前已经有包括Mate 9、P10、P20、Mate 10等大批的华为荣耀手机收到了GPU Turbo更新。   GPU Turbo技术详解:   华为GPU Turbo技术就是通过减少无用渲染的次数,优化或合并渲染区域。通过算法,将相
[手机便携]
揭秘移动电源那些事儿:安全/容量/价格有“文章”?
随着智能机的风靡,作为为智能机 电池 续航的 移动电源 也受到广大机友的欢迎。面对市场上良莠不齐的电源产品,消费者在选购时需要注意移动电源在安全、容量以及价格上的三大陷阱。   我们经常看到天猫上秒杀价32元到48元不等的20000mAh的移动电源,如此的吐血价让这个行业情何以堪?作为行业圈内的人都知道,这个价格就是电芯的成本也不够,更别说其他组成部分的成本了。可是消费者并未意识到这点,他们购买移动电源选择的标准就是两个:电容量和价格。事实上,电芯的质量决定电源的质量,如果消费者购买的是采用廉价电芯和电路板做的电源,长时间的使用会损坏手机甚至高温引起爆炸事故。   据调查,目前市面上的伪劣产品很多,电量虚标、充坏手机等问题已经屡见
[电源管理]
360报告揭秘汽车信息安全漏洞,传感器成最新攻击入口
    2015年黑客如何折腾了汽车行业?车轮上的信息安全可以做点啥?     昨晚3·15晚会对消费端信息安全的揭黑让人触目惊心。其实在智能网联和电气化的发展趋势之下,汽车信息安全同样也慢慢成长为痛点。     360即将发布的汽车信息安全年度报告,对可能存在的安全漏洞,以及应对之策做了举例介绍。车云菌摘取重点如下。   汽车信息安全存在哪些威胁?     关于安全威胁的部分,报告内容可以从车联网、自动驾驶和新能源汽车三个方面分类。总体来看,车联网信息安全方面的内容有些老生常谈。这部分涉及的案例大多是去年克莱斯勒被Charlie Miller&Chris Valasek联手破解事件后引爆的黑客攻防战。新能源汽
[汽车电子]
揭开神秘面纱,全球首款批量装车的三相全桥SiC 功率模块先进工艺揭秘
凭借长远独到的眼光、以及多年的功率器件设计经验和集团汽车级应用平台资源,比亚迪半导体率先进军SiC功率器件研发领域,现已成为国内首批自主研发并量产应用SiC器件的半导体公司。 在SiC器件领域,比亚迪半导体已实现SiC模块在新能源汽车高端车型电机驱动控制器中的规模化应用,其自主研发制造的高性能碳化硅功率模块,是全球首家、国内唯一实现在电机驱动控制器中大批量装车的SiC三相全桥模块。 那么,这款“块头不大”的模块有什么独特之处?其领先的技术优势究竟是如何炼成的?下面一起揭开它“神秘的面纱”…… 比亚迪半导体碳化硅模块 比亚迪半导体碳化硅功率模块是一款三相全桥拓扑结构的灌封全碳化硅功率模块,主要应用于新能源汽车电机驱动
[汽车电子]
揭开神秘面纱,全球首款批量装车的三相全桥SiC 功率模块先进工艺<font color='red'>揭秘</font>!
德州仪器最新DSP 66x刷新多核应用性能记录
• TI 推出 TMS320C66x DSP 系列的最新产品 TMS320C6671 DSP,这一业界速度最快的定点与 单内核器件可帮助开发人员采用战略性设计方法便捷地实现多内核技术转型; • TI 为 TMS320C6670 无线电 SoC 带来全新特性与增强技术,帮助以通信为中心的应用刷新性能与效率记录; • 开发人员可充分利用 TI 引脚及软件兼容型 C66x DSP 系列在产品设计过程中获得总体可扩展性。 日前,德州仪器 (TI) 宣布推出 TMS320C66x DSP 系列的最新数字信号处理器 (DSP) TMS320C6671,以及 TMS320C6670 无线电片上系统 (SoC) 的增强技术,进一步刷新多
[嵌入式]
Imagination 宣布推出其第九代图形处理器系列新品
Imagination Technologies 宣布推出其第九代(Series9)图形处理器(GPU)系列新品 PowerVR 9XEP 、 9XMP 和 9XTP 。这三款全新的Series9 GPU代表了PowerVR有史以来最佳的GPU产品组合,它们覆盖了从入门级到高端市场,并结合了效率的改进和新功能,从而提供了卓越的性能。 PowerVR Series9图形处理器将支持智能手机、汽车信息娱乐产品、机顶盒和电视等产品具有领先的图形和流畅的图形化用户接口(GUI)。新的GPU使系统级芯片(SoC)设计人员和原始设备制造商(OEM)能够以最低的功耗和成本提供引人注目的用户体验,从而确保其产品在竞争中脱颖而出。 新的GP
[家用电子]
电动机的性能参数指标有哪些
电动机有哪些性能参数指标 1.异步电动机主要数据 a) 相数 b) 额定频率(Hz) c) 额定功率kW d) 额定电压V e) 额定电流A f) 绝缘等级 g) 额定转速(极数)r/min h) 防护性能 i) 冷却方式 2.异步电机主要技术指标 a)效率η:电动机输出机械功率与输入电功率之比,通常用百分比表示。 b)功率因数COSφ:电动机输入有效功率与视在功率之比。 c)堵转电流IA:电动机在额定电压、额定频率和转子堵住时从供电回路输入的稳态电流有效值。 d)堵转转矩TK:电动机在额定电压、额定频率和转子堵住时所产生转矩的最小测得值。 e)最大转矩TMAX:电动机在额定电压、额定频率和运行温度下,转速不发生突降时所产生的
[嵌入式]
多核的未来之路
   似乎在一夜之间,处理器就进入了多核时代。但是从多核(Multi-core)到很多核(Many Core)还面临着巨大的挑战,尤其在软件并行化和应用模式方面。同时,计算和通信传输性能提升的异步还有可能进一步拉大,而硅光子技术的逐渐成熟有望解决这一难题。 从“多”核到“很多”核    多核处理器的一个基本思路就是将计算任务经过合理的分解,再想办法提高指令执行的并行度。但是如何将很多任务有效地分解,目前在软件方面还存在较大的难度。因此当处理器的内核数上升时,如果处理不当,很有可能会出现性能反而下降的问题。   6月7-8日, 英特尔 公 司在北京举行了中国研究论坛活动。记者在论坛上采访英特尔数字企业部编译器与架构高级
[焦点新闻]
小广播
最新手机便携文章
换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved