榨取能源、削弱人口红利，ChatGPT的野心不止十万亿算力-电子工程世界

榨取能源、削弱人口红利，ChatGPT的野心不止十万亿算力

史上用户增速最快消费级应用ChatGPT，自去年11月底发布以来，让全球为其狂欢，各方势力仍持续为此“上火”：用户急着试探ChatGPT是否真的有那么聪明，每天有超过2亿的人都在疯狂抛出各式各样的问题“刁难”ChatGPT，并展现自己的“调教”成果；

（ChatGPT每日点击访问量统计图源：国盛证券研究所）

国内互联网大厂们基于要“活下去”的心愿和讲更动听的AI故事，急着与ChatGPT扯上关系：一时间百度、腾讯、阿里等纷纷拿出相关技术布局以及底层设施储备，为中国的ChatGPT奋力一战；

近3个月过去，ChatGPT热度丝毫未减，政府也开始“急了”：

2月24日，东数西算一体化算力服务平台在宁夏银川正式上线发布。据悉，东数西算一体化算力服务平台将瞄准目前最稀缺、刚需迫切的ChatGPT运算能力，以支撑中国人工智能运算平台急需的大算力服务。

目前，该平台已吸引曙光、中国电子云、天翼云、阿里云、华为、中兴等大算力头部企业，以及国家信息中心、北京大数据研究院等中国主要大数据机构入驻。

新概念才火热三个月，便让政府下场弥补缺口，此等盛况实属难见。

各方势力蜂拥而至，足以见得，目前的算力怕是填补不了ChatGPT们的肚子，众志成城，才能打赢ChatGPT算力攻坚战。

本文试图探究，ChatGPT到底需要多大的算力？升级算力的路子是什么？

ChatGPT，企图榨干算力

通用AI时代来临，人类对于算力的需求正逐渐失控。

伴随着摩尔定律失效，大模型时代来临，算力不再“淡定”，每5-6个月就要翻倍，以困兽冲破牢笼之势飞速增长：

（模型发布时间及算力变化图源：浙商证券）

2018年，谷歌带着3亿参数BERT模型，闯进大众视野，开启大规模预训练模型时代；在这之后，OpenAI、英伟达、微软先后推出15亿参数的GPT-2、83亿参数的Megatron-LM、170亿参数的图灵Turing-NLG，各个大厂暗自较劲，参数规模从十亿级别竞争到了百亿级别。

2020年6月，OpenAI又将算力“战场”拔高了一个层级：推出1750亿参数的GPT-3，把参数规模提高到千亿级别。随后一山更比一山高：微软和英伟达在2020年10月联手发布了5300亿参数的Megatron-Turing自然语言生成模型（MT-NLG）。

2021年，国内迎来预训练大模型元年。在这一年里，华为、百度、阿里等中国企业开始发力：

华为云联合北京大学发布盘古α超大规模预训练模型，参数规模达2000亿；

百度推出ERNIE 3.0 Titan模型，参数规模达2600亿；

阿里达摩院的M6模型参数达到10万亿，又将大模型参数带到新的高度

••••••

在这之中表现最为亮眼的，莫过于从GPT-3迭代而来的ChatGPT，2022年底一出世就博得全球目光，无论是在模型预训练阶段，还是模型被访问阶段，ChatGPT都对算力提出“史无前例”的要求。

在模型预训练阶段，从GPT-1到GPT-3 ，从GPT-3 Small到GPT-3 175B，对算力的需求呈指数型增长。

在大模型的框架下，每一代 GPT 模型的参数量均高速扩张，参数量从GPT-1的1.17亿个，翻了1029倍至GPT-3 的1750 亿个；

具体来看，在GPT-3历代模型中，短短2年，参数量便从GPT-3 Small的1.25亿个，翻了1399倍至GPT-3的1750亿个，未来GPT-4还要翻倍：根据 Altman 的介绍，预计GPT-4的参数将会达到2800亿个。

与此同时，在模型被访问阶段，ChatGPT对算力同样有着“狂热”需求：

根据Similarweb数据，ChatGPT官网在2023年1月27日-2月3日一周内吸引的每日访客数量高达2500万。假设以目前的稳定状态，每日每用户提问约10个问题，则每日约有2.5亿次咨询量。

如果想要“消化”掉这2.5亿次咨询量，根据国盛证券测算，需要大量的A100 GPU芯片“连夜赶工”：

假设每个问题平均30字，单个字在A100 GPU上约消耗350ms，则一天共需消耗729,167个A100 GPU运行小时，对应每天需要729,167/24=30,382片英伟达A100 GPU。

也就是说，目前每天2.5亿次咨询量，需要30,382片英伟达A100 GPU同时计算，才能把ChatGPT“喂饱”，以下是ChatGPT部分耗费（电费以0.08美元/kwh计算）：

而以上图表所显示的，仅仅是2.5亿咨询量需求下，使用英伟达A100 GPU相关设备，ChatGPT所需要的算力成本。

其背后对能源的消耗，更是“触目惊心”。

环球零碳研究中心曾粗略合计了ChatGPT全生命周期的碳足迹：自2022年11月30日运行以来，其制造设备的碳排放量超过了33.41吨，模型训练碳排放超过552吨，运行60天碳排放约为229.2吨。

也就是说上线两个月的ChatGPT，全过程碳排放超过了814.61吨，而这，相当于186个丹麦家庭每年消耗的能量。

现阶段ChatGPT背后的大模型仍在迭代，每日访问量仍在递增，未来还会有更多的ChatGPT们涌现。彼时，算力以及其背后的功耗还能顾得过来吗？

对此，苏妈表示了担忧：在ISSCC 2023上，苏妈表示根据目前计算效率每两年提升2.2倍的规律，预计到2035年，如果想要算力达到十万亿亿级，则需要的功率可达500MW，相当于半个核电站能产生的功率，“这是极为离谱、不切合实际的”。

（2010-2040功率发展情况图源：2023 IEEE international Solid-State Circuits Conference）

为了达到这样的效果，我们的计算效率起码要每两年提升2.2倍，才能匹配上2035年的算力需求。苏妈坦言，尽管用上目前最先进的计算技术、最先进的芯片，也满足不了ChatGPT们。

而当ChatGPT吞噬完大量算力、能源，“吃饱喝足”之后，各国打的不再是算力之争，而是“国运之争”：一旦搭载ChatGPT的人形机器人能够大批量地上岗时，吃人口红利的国家不再有显著的优势。

ChatGPT们，包括未来的人形机器人们，正对算力、能源“虎视眈眈”，同时对人类的威胁也不容小觑：往小了看，影响到个人职业发展，往大了看，牵扯到国家竞争力。

存算一体承载和释放ChatGPT

而一切的一切，都得从打好算力之争开始。

传统的AI1.0时代的代表企业，例如AMD已经开始探寻新的出路：依靠系统级创新实现更大的突破。系统级创新，即从整体设计的上下游多个环节协同设计来完成性能的提升。

一个经典案例是，在对模型算法层面使用创新数制（例如8位浮点数FP8）的同时，在电路层对算法层面进行优化支持，最终实现计算层面数量级的效率提升：相比传统的32位浮点数（FP32），进行系统级创新的FP8则可以将计算效率提升30倍之多。而如果仅仅是优化FP32计算单元的效率，无论如何也难以实现数量级的效率提升。

于是，为解决“如何用更少的电，输出更高的算力”这一终极命题，业内给出不少技术及方案：量子计算（量子芯片）、光机芯片、芯粒（Chiplet）、3D封装、存算一体……。同时也有团队将这些技术进行结合，以期达到系统级创新。

在这之中，现在能够兼容CMOS工艺又能尽快量产的有芯粒、3D封装、存算一体。而芯粒、存算一体是目前业内普遍认为，能够突破 AI 算力困境，进行架构创新的两条清晰路线。

浙商证券指出，面对未来潜在的算力指数增长，短期使用芯粒异构技术加速各类应用算法落地，长期来看，打造存算一体芯片，或将成为未来算力升级的潜在方式。

（架构创新路线图源：浙商证券）

芯粒异构技术成为“种子”选手的原因是，该技术能够突破先进制程的封锁，且大幅提升大型芯片的良率、降低设计成本、芯片制造成本。

而之所以说是短期，是因为该技术路径需要牺牲一定的体积和功耗，导致其目前只能在基站、服务器、智能电车等领域广泛使用。

为解决这一“小缺陷”，目前在学术界，已有团队选择将芯粒异构技术与存算一体架构相融合，以期达到1+1>2的效果：

在ISSCC 2022上，复旦大学芯片与系统前沿技术研究院刘明院士团队提出多芯粒的存算一体集成芯片——COMB-MCM。

据团队表示，电路上COMB-MCM采用存算一体设计，能够降低功耗、提高系统算力。在存算一体的加持下，该芯片具有精度无损且支持非结构化稀疏的自适应能效调节特点，也就补足了芯粒异构技术的短板。

既是芯粒异构技术的最佳拍档之一，同时也是未来架构创新路径之一，存算一体为何能博得多方“欢心”？

这是因为存算一体成功打破了“三堵墙”：

在传统冯•诺伊曼架构之下，芯片的存储、计算区域是分离的。计算时，数据需要在两个区域之间来回搬运，而随着神经网络模型层数、规模以及数据处理量的不断增长，数据已经面临“跑不过来”的境况，成为高效能计算性能和功耗的瓶颈，也就是业内俗称的“存储墙”。

（存储墙限制具体表现图源：浙商证券）

存储墙相应地也带来了能耗墙、编译墙（生态墙）的问题。例如编译墙问题，是由于大量的数据搬运容易发生拥塞，编译器无法在静态可预测的情况下对算子、函数、程序或者网络做整体的优化，只能手动、一个个或者一层层对程序进行优化，耗费了大量时间。

这“三堵墙”会导致算力无谓浪费：据统计，在大算力的AI应用中，数据搬运操作消耗90%的时间和功耗，数据搬运的功耗是运算的650倍。

而存算一体能够将存储和计算融合，彻底消除了访存延迟，并极大降低了功耗。基于此，浙商证券报告指出，存算一体的优势包括但不限于：具有更大算力（1000TOPS以上）、具有更高能效（超过10-100TOPS/W）、降本增效（可超过一个数量级）••••••

存算一体，正在冲破三堵墙“解救”ChatGPT，加速算力升级。

大算力芯片需扎好马步

除了架构创新，芯片本身的升级迭代也非常重要。作为基石的底层芯片，需要足够“大”，AI大算力应用才能高楼平地起。

（ChatGPT研究框架图源：浙商证券）

那么AI大算力说的“大”到底是多大？

以2020年发布的GPT3预训练语言模型为例，采用的是2020年最先进的英伟达A100 GPU，算力达到624 TOPS。2023年，随着模型预训练阶段模型迭代，又新增访问阶段井喷的需求，未来模型对于芯片算力的需求起码要破千。

再例如自动驾驶领域，根据财通证券研究所表明，自动驾驶所需单个芯片的算力未来起码1000+TOPS。

目前巨头已开始卷上1000+TOPS的SoC，主要用于自动驾驶领域：在2021年4月，英伟达就已经发布了算力为1000TOPS的DRIVE Atlan芯片。到了今年，英伟达直接推出芯片Thor达到2000TOPS。

（自动驾驶所需算力图谱图源：财通证券研究所）

故，大算力背景下，大算力芯片起码得是1000+TOPS选手。

而在符合大算力条件下，也需要考虑到“用料”的功耗、造价问题。

目前，在存算一体架构优势下，亿铸科技为当前的算力、能耗困局，给出一条解题思路：选择有着面积更小、微缩性好等特性的RRAM实现“同等能耗，更大算力；同等算力，更低能耗”，为各大数据中心、自动驾驶等应用领域“排忧解难”，在数字经济时代，实现绿色算力。

而在存算一体架构下，传统SRAM、闪存（Flash ) 均有着致命的缺陷，无法实现在大算力赛道的降本增效：

SRAM面积较大，占据了英伟达数据中心级GPU总逻辑面积的约50%。而一个A100 GPU的成本就在1万美元以上，根据测算，成熟产品每GB SRAM内存的成本将在100美元左右，最贵的存储器当属SRAM。

除了成本难压之外，SRAM也存在着不稳定的问题。新型非易失性存储架构研究领域的专家李博士认为，SRAM 的问题在于它的静态电流大，当大量的 SRAM 堆积在芯片上时，会产生一种被称为 DI/DT 的工程性问题（也就是电流在短时间内大量变化），应用落地极具挑战性。

基于这两点考虑，SRAM 并不适合做大算力场景。李博士补充道：" 正因如此，采用 SRAM 的这些公司都在基于边缘端做小算力的场景，比如语音识别、智能家居的唤醒、关键命令词的识别等。"

同时，Flash也面临着因微缩性差导致不稳定的问题。传统存储器的局限性让行业逐渐将目光逐渐转向了新型存储器：

•比如近期英飞凌宣布其下一代 AURIX ™微控制器 ( MCU ) 将采用新型非易失性存储器 ( NVM ) RRAM ( ReRAM ) ；

•亿铸科技自2020成立以来，就专注于研发基于RRAM的全数字存算一体大算力AI芯片。

••••••

ChatGPT，需要存算一体的“解救”，也需要该架构下，更物美价廉（微缩性好、单位面积小、成本低）的新型存储器RRAM的大力支持。

据了解，国内目前已公开的能够实现存算一体AI大算力的芯片公司仅有亿铸科技，该公司基于RRAM的存算一体AI大算力芯片将在今年回片。期待国内更多玩家加入存算一体AI大算力芯片的赛道，满足未来的“ChatGPT们”以及下游应用场景的算力需求，同时响应国家绿色算力号召，在“双碳”政策下，更快实现AI“智力”升维。

关键字：能源算力 AI 引用地址：榨取能源、削弱人口红利，ChatGPT的野心不止十万亿算力

上一篇：艾伯科技投资杭州一芯微科技有限公司另配售新股份集资总额约7,999.8万港元
下一篇：2022年我国全部工业增加值超40万亿元

推荐阅读最新更新时间：2024-10-11 07:37

陆奇：百度是中国的谷歌，AI纪元需要5G加速

　　1月11日消息，拉斯维加斯时间上午10:10，百度公司首席运营官陆奇参加了CES关于 5G 的圆桌论坛。下面就随手机便携小编一起来了解一下相关内容吧。　　在论坛上，陆奇介绍，百度是中国的谷歌，致力于将 AI 商业化。 5G 时代，数据会在加速这方面继续向前，在新的 AI 纪元，建筑这么多工程，需要好的系统。有了更多的数据，创新周期要更加加速。百度已经发布了10款汽车，要加强开放性平台，　　陆奇在论坛上专门提及河北雄安，他说雄安是中国下一个未来城市，基础设计完全是最创新、最尖端的。这样的基础设施做好，科技就会开花结果。　　他认为，每一个时代的交替都是一个蜕变。以上是关于手机便携中-陆奇：百度是中国的谷歌，AI纪

[手机便携]

Alif与Edge Impulse联合开发边缘机器视觉能力

Alif Semiconductor 和 Edge Impulse共同宣称，通过将前者的 Ensemble 系列微控制器 (MCU) 和融合处理器与后者的 ML 开发平台相结合，嵌入式系统中的机器学习性能“显着提高”。这些改进甚至可以为电池供电的物联网应用提供机器视觉能力，以及用于基于语音和振动的机器学习。他们表示，嵌入式物联网应用程序中基于视觉的用例对开发人员来说一直很困难，因为处理器要么在处理性能方面太弱，要么太耗电，尤其是在电池供电系统的情况下。同样，嵌入式设计的传统开发工作流程不适合在嵌入式 MCU 中进行配置、训练和部署 ML 模型所需的额外步骤。 Alif Semiconductor 的 Ensemble 系

[嵌入式]

阿尔法狗成AI新贵我们的生活注定被人工智能填满

新年伊始，谷歌又一次抢得年度热点沙发，这次为其充当开路先锋、摧城拔寨的其旗下公司DeepMind研发调教的Master。Master没有辜负自己的名字，在短短的不到一周时间内证实了自己身为大师的精湛技艺，成功地在围棋界掀起了一番腥风血雨。战胜韩国现役“一哥”朴廷桓九段为它的惨无人寰的屠杀揭开了序幕，也自此开启了至今60连胜的地狱模式，众多围棋好手都被其轻松斩落马下，而现任世界第一柯洁以及接下来“棋圣”聂卫平、古力的败北也标志着Master已经在现阶段彻底征服人类棋手。伴随着大师的一路高歌猛进，坊间也不断流传关于它身份的猜想。而在取得60连胜后，Master终于被揭开了神秘面纱。不出大多数人所料，隐藏在这位大师背后的“黑手”果

[嵌入式]

发改委：招生增量主要向集成电路、人工智能等领域增加

9月22日，在教育部新闻发布会上，国家发展改革委社会发展司副司长蔡长华介绍近年来国家发展改革委会同有关方面开展的主要工作。教育部政府门户网站显示，蔡长华表示，要坚持内涵式发展，改善办学育人条件。“十三五”期间，发展改革委实施“教育现代化推进工程”，将高等教育特别是研究生教育作为重点支持方向，设立中央高校“双一流”建设、中西部高校基础能力建设、自主创新能力建设等专项，基本覆盖开展研究生教育的主要高校。蔡长华指出，要面向经济转型升级，优化招生规模结构。一方面，稳步扩大规模，研究生招生规模从2016年的约80万人增加到2020年的110万人左右，高层次人才有效地支撑了高质量发展。另一方面，积极优化结构，招生增量主要向数学、物理、

[手机便携]

美国科学家：人工智能威胁人类生存是杞人忧天

军事AI的发展被公众解读为可能让人类走向世界末日。伊隆·马斯克等知名人士也警告地球可能出现如电影《终结者》当中出现的AI统治人类场景。但是，当涉及到军事组织依赖的AI，事情多了几分清醒。最近一份由美国国防部资助的报告表示，对大多数计算机科学家来说，由AI带来的生存威胁还是杞人忧天。为美国政府和美国国防部科技政策提供咨询的科学家们表示，目前来说AGI（通用人工智能）具有较高的知名度，但是它的知名度或者说可怕的世界末日预言与目前它现有水平并不相称。这些科学家在报告当中表示，人工智能目前的繁荣尚不足以让我们距离真实的AGI遥远梦想更进一步。这份报告本月早些时候发布，它概述了人工智能目前的趋势，并为美军应该投资和研究的领域提出建议。

[嵌入式]

全球AI人才数量“热图”分析：中国全球第7 欧洲专业人才最聚集

AI专家的需求在过去几年呈指数增长。随着公司越来越多地采用人工智能解决方案为他们的企业提供服务，对经验丰富、受过博士学位和技术娴熟的人才的需求不会很快出现停滞的迹象。 Element AI的最新报告总结了对全球AI人才库的分布和流动的研究。需要指出的是，尽管这些数据全面呈现了2018年初全球人才的分布情况，但这一分析模型主要以西方为中心，并且主要注重“稀缺性”AI人才的分布。在中国地区，目前“30万活跃研究人员和从业人员中的20万”已经受雇于该行业。而大约10万人正在学术界进行研究或学习。但这当中包括了整个技术团队，而不仅仅是专门训练有素的专家。在AI技术人才的范畴中，这份关于人才库的观点仍主要针对西方。对中、美、德、日等主

[机器人]

谈，大门敞开；打，奉陪到底！中美新能源汽车产业必有一战

6月1日之后，中国正式开始对美进口产品征收600亿报复性关税。由于纯电动汽车已经形成完整的自主产业链，因此普遍认为贸易战对电动汽车影响不大，但对需要进口核心零部件的氢燃料电池汽车却有一定的关联。中国没有对于从美国大量进口的电动汽车抬高门槛，反而向仍依赖进口的氢燃料电池汽车零部件，中国却加征了关税，这就形成了一个有意思的对比。这背后折射出的，是中国对未来新能源汽车市场的战略构想与期望。 01、贸易战条款背后的新能源汽车战略意图尽管业内常说国内氢能源汽车已经打通了技术链，正在攻克产业化问题，但实际上大量的零部件尚未实现国产化。这是由于燃料电池产业对基础材料与基础工业水平要求较高，而这正是我国工业较为薄弱的环节。

[汽车电子]

谈，大门敞开；打，奉陪到底！中美新<font color='red'>能源</font>汽车产业必有一战

英特尔® 实感™ 深度相机模组D421发布：引领立体视觉技术应用创新

英特尔首款一体化立体深度模组，旨在将先进的深度感应技术带给更广泛的受众 2024年9月24日 —— 英特尔® 实感™ 技术再次突破界限，推出全新的英特尔® 实感™ 深度相机模组D421 。这是一款入门级立体深度模组，旨在以高性价比将先进的深度感应技术带给更广泛的用户群体，为寻求深度成像技术及消费产品潜力的开发者、研究人员和计算机视觉专家提供卓越的价值，将先进的3D视觉技术拓展至更广泛的应用领域。英特尔® 实感™ 深度相机模组适用于室内外环境，能够在0℃至35℃的温度范围内工作。它提供75°x50°的深度视野，支持高达1280x800的深度分辨率，并能以最高60帧每秒的速度捕捉深度图像。该模组的最小深度检测距离为20

[传感器]

热门资源推荐
热门放大器推荐

小广播