全新数据中心处理器已被云服务商、OEM、ODM和独立软件开发商广泛应用,在AI、网络和科学计算领域展现大幅性能提升
• 具备众多内置加速器,第四代英特尔至强可扩展处理器和英特尔Max系列产品采用以结果为导向、工作负载至上的策略,为AI、数据分析、网络、安全、存储和科学计算(HPC)提供卓越的性能。
• 第四代英特尔至强可扩展处理器是英特尔最具可持续性的数据中心处理器,以多种方式优化产品功率和性能,旨在通过充分利用CPU资源助力客户实现可持续发展目标。
• 与前一代相比,第四代英特尔至强可扩展处理器通过内置加速器,可将目标工作负载的平均每瓦性能提升2.9倍1,在对工作负载性能影响最小化的情况下,通过优化电源模式可为每个CPU节能高达70瓦2,并降低52%到66%3的总体拥有成本(TCO)。
2023年1月11日,北京——今日,以“芯加速 行至远”为主题的第四代英特尔®至强®新品发布会在北京正大中心盛大举行。会上,英特尔正式推出第四代英特尔®至强®可扩展处理器(代号“Sapphire Rapids”)、英特尔®至强®CPU Max系列(代号“Sapphire Rapids HBM”)以及英特尔®数据中心GPU Max系列(代号“Ponte Vecchio”),在实现数据中心性能、能效和安全性大幅跃升的同时,为AI、云、网络、边缘和全球领先的超级计算机带来全新功能。
基于第四代英特尔至强可扩展平台,英特尔携手客户及产业伙伴密切合作,大规模提供差异化解决方案和系统以助力其解决算力挑战。英特尔致力于通过其独特的以结果为导向、工作负载至上的策略,及针对特定工作负载高度优化的软件,为不同工作负载和需求匹配对应的功耗和性能,并实现理想的总体拥有成本。会上,来自腾讯云、天翼云、京东云、阿里云、火山引擎、吉利汽车、浪潮信息与亚信科技的伙伴亦分享了其如何基于全新英特尔数据中心产品推动产品、技术创新,及在诸多领域落地的成功实践。
此外,值得注意的是,作为英特尔迄今为止最具可持续性的数据中心处理器,第四代英特尔至强可扩展处理器为客户提供一系列功能,以优化产品功率和性能,旨在通过充分利用CPU资源助力其实现可持续发展的目标。
英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera表示:“第四代英特尔至强可扩展处理器和Max系列产品的发布,对于推动英特尔在数据中心领域阔步前行,增强数据中心领域的领导地位,以及进一步探索新领域的发展机会极具意义。第四代英特尔至强可扩展处理器和Max系列产品能够满足客户真实所需,即在安全的环境中兼具领先的性能和可靠性,不仅能够满足客户的实际应用需求,亦有助于其加速实现业务价值及创新。”
发布会上,英特尔市场营销集团副总裁兼中国区总经理王稚聪与英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰亦分别进行分享。王稚聪在致辞中指出:“数字经济已成为经济高质量发展的重要支撑,值此经济发展回稳走强之际,半导体行业的新增长机会亦接踵而至。籍此,英特尔将在‘五大超级技术力量’的驱动下,推动产品和技术创新,为生态伙伴持续赋能,助力产业向纵深发展,进而为我国经济发展再添新动力。”
英特尔市场营销集团副总裁兼中国区总经理王稚聪现场致辞
不同于目前市场上的其它数据中心处理器,第四代至强家族充分体现了英特尔以结果为导向、工作负载至上的策略。
英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰
展示第四代英特尔至强可扩展处理器晶圆
丰富的内置加速器带来领先的性能和可持续发展优势
目前,至强处理器的安装量已超过一亿——从运行IT服务的本地服务器,其中包括全新的即服务商业模式,到管理互联网流量的网络设备,再到进行边缘计算的无线基站和云服务等。
基于数十年来在数据中心、网络和智能边缘领域的创新和领导地位,全新第四代英特尔至强可扩展处理器通过丰富的内置加速器提供领先的性能,解决客户在AI、分析、网络、安全、存储和科学计算领域面临的重大计算挑战。
与前一代相比,第四代英特尔至强可扩展处理器通过内置加速器将目标工作负载的平均每瓦性能提升了2.9倍1,在优化电源模式下每个CPU节能高达70瓦2并对性能只产生极低的影响,同时将总体拥有成本降低52%到66%3。
可持续性
第四代英特尔至强可扩展处理器拥有丰富的内置加速器,意味着英特尔能够提供平台级的功率节省,并缓解对额外独立加速方面的需求,帮助客户实现可持续发展目标。此外,新的优化电源模式可以为某些工作负载带来高达20%的插槽节能,而对性能的影响仅有不到5%11。风冷和液冷的创新进一步降低了数据中心的总能耗,且第四代至强可扩展处理器在英特尔工厂制造时,运用了超过90%的可再生电力,并同时配备了一流的水资源回收设施。
人工智能
在AI方面,与前一代相比,通过内置英特尔®高级矩阵扩展(英特尔®AMX)加速器,第四代英特尔至强可扩展处理器将PyTorch实时推理和训练性能提升了10倍5,6。第四代英特尔至强还将广泛的AI工作负载的推理和训练性能提升到新的高度。英特尔至强CPU Max系列在这些功能的基础上针对自然语言处理进行了扩展,将大型语言模型的处理速度提升多达20倍12。借助英特尔的AI软件套件,开发者可以使用自己选择的AI工具,提高生产力并加快AI开发速度。该套件可以从工作站进行移植,使其可以在云中扩展,并一直扩展到边缘。同时,该套件已经针对400多个机器学习和深度学习AI模型进行了验证,涵盖所有商业细分领域最常见的AI应用场景。
网络
第四代英特尔至强包含一系列针对高性能、低时延网络和边缘工作负载进行了特别优化的处理器产品。对于如今电信、零售、制造和智慧城市等行业正在推动更加软件定义的未来,这些处理器将发挥关键性基石作用。对于5G核心工作负载,内置加速器有助于提高吞吐量和降低时延,而电源管理的升级则提高了平台的响应能力和能效。此外,与前几代相比,第四代英特尔至强在不增加功耗的情况下提供多达两倍的虚拟无线接入网(vRAN)容量。这使通信服务提供商能够将每瓦性能提高一倍,满足其关键的性能、扩展和能效需求。
科学计算
第四代英特尔至强可扩展处理器和英特尔Max系列产品具备可扩展、平衡的架构,其中整合了CPU、GPU和oneAPI的开放软件生态系统,适用于科学计算和AI等领域要求严苛的计算工作负载,旨在帮助解决全球最具挑战性的问题。
英特尔至强CPU Max系列是集成高带宽内存的x86处理器,能够在无需变更代码的情况下为科学计算工作负载加速。英特尔数据中心GPU Max系列提供极高的计算密度,且具有多种产品规格以满足不同的客户需求。
英特尔至强CPU Max系列可提供64GB的高带宽内存(HBM2e),为科学计算和AI工作负载大幅提高了数据吞吐量。与第三代英特尔®至强®可扩展处理器的高端SKU相比,英特尔至强CPU Max系列可为如能源、地球系统建模等一系列实际应用提供高达3.7倍10的性能提升。
此外,英特尔数据中心GPU Max系列在单个产品上整合47个小芯片,集成了超过1000亿个晶体管,为诸如物理、金融服务和生命科学等极具挑战性的工作负载带来更高的吞吐量。相较上一代产品,英特尔数据中心GPU Max系列和至强CPU Max系列的结合,可以使生命与材料科学领域LAMMPS处理性能提升12.8倍13。
兼具强劲性能和安全性的至强平台
作为英特尔重要的平台转型体现,第四代英特尔至强不仅具备卓越的加速性能,亦体现了重大的制造进展。其能够在一个封装上集成多达4个采用Intel 7制程工艺制造的单元,这些区块通过英特尔嵌入式多芯片互连桥接(EMIB)封装技术连接。第四代英特尔至强可扩展处理器还具备新特性,包括通过DDR5增加了内存带宽、通过PCIe5.0和Compute Express Link (CXL) 1.1互连增加了I/O带宽。
安全是一切的基础。通过第四代英特尔至强可扩展处理器,英特尔提供数据中心芯片行业广泛的机密计算产品组合,同时保护敏感数据和受到法律法规严格保护的数据。作为为数据中心计算提供应用隔离的芯片厂商,英特尔凭借英特尔®软件防护扩展(英特尔®SGX),在私有云、公有云和从云到端的环境中,为使用中的数据提供硬件加密,以实现当前机密计算领域更小的攻击面。此外,作为英特尔全新的虚拟机隔离技术,英特尔®Trust Domain Extensions(英特尔®TDX)非常适合把现有应用移植到机密环境,该特性将在微软Azure、阿里云、谷歌云和IBM云中首发。
最后,第四代英特尔至强的模块化架构让英特尔能够提供广泛的处理器,针对客户的使用场景或应用提供接近50个有针对性的SKU,其中包括从主流通用SKU到面向云、数据库和分析、网络、存储和单插槽边缘使用场景的专用SKU。第四代英特尔至强处理器家族支持英特尔On Demand,能够针对不同使用场景和外形规格提供不同的核心数、频率、加速器组合、功率和内存吞吐量,从而满足客户的实际应用需求。
数字化浪潮奔涌向前,加速数字化发展已成为关乎长远发展的“必修课”。基于此,作为数字经济建设和数字产业向前发展的重要参与者和关键推动者,英特尔将在“五大超级技术力量”的驱动下,秉承以结果为导向、工作负载至上的策略,以稳健的执行力、卓越的产品技术领导力,及强大的生态影响力,持续助力本地生态伙伴全方位、深层次创新,为中国数字经济的高质量发展夯实基础。
¹ 如下工作负载的几何平均值:RocksDB(IAA vs ZTD)、ClickHouse(IAA vs ZTD)、SPDK大型媒介与数据请求代理(DSA vs 开箱即用)、图像分类ResNet-50(AMX vs VNNI)、物体识别SSD-ResNet-34(AMX vs VNNI)、QATzip(QAT vs zlib)
² 1-节点,英特尔参考验证平台,2个英特尔® 至强8480+ (56C, 2GHz, 350W TDP),启用超线程,启用睿频,总内存: 1 TB(16个插槽/ 64GB/ 4800 MHz),1个P4510 3.84TB NVMe PCIe Gen4驱动器,BIOS:0091.D05,(ucode:0x2b0000c0),CentOS Stream 8, 5.15.0-spr.bkc.pc.10.4.11.x86_64,Java Perf/Watt w/ openjdk-11+28_linux-x64_bin,112个实例,1550MB 初始堆/最大堆大小,英特尔截至2022年1月的测试。
³ ResNet50图像分类
新配置:1-节点,2个预生产的第四代英特尔®至强®可扩展处理器8490H(60核),含英特尔® 高级矩阵扩展(英特尔AMX),预生产超微SYS-221H-TNR,1024GB DDR5内存(16x64 GB),微代码0x2b0000c0,启用超线程,启用睿频,关闭SNC,CentOS Stream 8, 5.19.16-301.fc37.x86_64,1x3.84TB P5510 NVMe,10GbE x540-AT2,英特尔TF 2.10,AI Model=Resnet 50 v1_5,最高得分:BS1 AMX 1 核/实例(最高15ms SLA),使用物理内核,英特尔在2022年11月进行的测试。基准:1-节点,2个第三代英特尔®至强®可扩展处理器8380(40核),超微SYS-220U-TNR,1024GB DDR4内存(16x64 GB),微代码0xd000375,启用超线程,启用睿频,关闭SNC,CentOS Stream 8, 5.19.16-301.fc37.x86_64,1x3.84TB P5510 NVMe,10GbE x540-AT2,英特尔 TF 2.10,AI Model=Resnet 50 v1_5,最高得分:BS1 INT8 2 核/实例(最高15ms SLA),使用物理内核,英特尔在2022年11月进行的测试。
包含50台配备第三代英特尔至强处理器8380的服务器编队(RN50 w/DLBoost),截至2022年11月的估计:
资本成本:164万美元
运营成本(4年,包括电力和散热成本,基础设施和硬件维护成本):73.99万美元
能耗kWh(4年,每台服务器):44627,PUE 1.6
其它假设:电价$0.1/kWh,kWh对应千克CO2 系数为0.42394
包含17台配备第四代英特尔至强处理器8490H 的服务器编队(RN50 w/AMX),截至2022年11月的估计:
资本成本:79.94万美元
运营成本(4年,包括电力和散热成本,基础设施和硬件维护成本):27.53万美元
能耗kWh(4年,每台服务器):58581,PUE 1.6
人工智能——通过部署更少的基于第四代英特尔至强处理器的服务器,在实现相同性能要求的情况下,TCO降低达55%。 请参阅 intel.com/processorclaims 上的 [E7]:第四代英特尔至强可扩展处理器。结果可能会有所不同。
数据库——通过部署更少的基于第四代英特尔至强处理器的服务器,在实现相同性能要求的情况下,TCO降低达52%。 请参阅 intel.com/processorclaims 上的 [E8]:第四代英特尔至强可扩展处理器。结果可能会有所不同。
HPC——通过部署更少的基于英特尔至强CPU Max系列处理器的服务器,在实现相同的性能要求的情况下,TCO降低达66%。 请参阅 intel.com/processorclaims 上的 [E9]:第四代英特尔至强可扩展处理器。 结果可能会有所不同。
4 HP Linpack、Stream Triad、SPECrate2017_fp_base est、SPECrate2017_int_base est的几何平均值。 [G2, G4, G6] 参见intel.com/processorclaims:第四代英特尔至强可扩展处理器。
5 与前一代(FP32)相比,通过内置英特尔®高级矩阵扩展(英特尔® AMX)(BF16),PyTorch实时推理性能提升至高可达10倍
ResNet50、Bert-Large、MaskRCNN、SSD-ResNet34、RNN-T、Resnext101的PyTorch几何平均值。
6 与前一代(FP32)相比,通过内置英特尔®高级矩阵扩展(英特尔® AMX)(BF16),PyTorch训练性能提升至高可达10倍
ResNet50、Bert-Large、DLRM、MaskRCNN、SSD-ResNet34、RNN-T的PyTorch几何平均值。
7 截至2022年8月30日的估计,使用FlexRAN™软件测试,对比了第四代英特尔® 至强® 可扩展处理器和第三代英特尔® 至强® 可扩展处理器的架构提升,拥有类似的内核数量、插槽功率和频率。结果可能不同。
8 内核数量可少95%和2倍的一级压缩吞吐量,对比了包含集成英特尔QAT的第四代英特尔至强白金8490H和前一代。
8490H:1-节点,配备2个集成了英特尔® 数据保护与压缩加速技术(英特尔QAT)的第四代英特尔®至强®可扩展处理器(60核)的预生产平台,利用的QAT设备=8(2个活跃插槽),总计1024GB (16x64 GB) DDR5内存,微代码 0xf000380,启用超线程,关闭睿频,关闭SNC,Ubuntu 22.04.1 LTS,5.15.0-47-generic,1x 1.92TB Intel® SSDSC2KG01,QAT v20.l.0.9.1,QATzip v1.0.9,ISA-L v2.3.0,截至英特尔2022年9月的测试。
8380: 1-节点,2个第三代英特尔®至强®可扩展处理器(40核),Coyote Pass平台,DDR4内存1024GB (16x64 GB),微代码 0xd000375,启用超线程,关闭睿频,关闭SNC,Ubuntu 22.04.1 LTS,5.15.0-47-generic,1x 1.92TB Intel SSDSC2KG01,QAT v1.7.l.4.16,QATzip v1.0.9,ISA-L v2.3.0,截至英特尔2022年10月的测试。
9 至高可达3倍的RocksDB性能,对比了集成英特尔IAA的第四代英特尔至强白金8490H和前一代。
8490H:1-节点,配备2个集成了英特尔®内存分析加速器(英特尔IAA)的第四代英特尔®至强®可扩展处理器(60核)的预生产英特尔平台,启用超线程,启用睿频,总内存1024GB (16x64GB DDR5 4800),微代码 0xf000380,1x 1.92TB INTEL SSDSC2KG01,Ubuntu 22.04.1 LTS,5.18.12-051812-generic,QPL v0.1.21,accel-config-v3.4.6.4,ZSTD v1.5.2,RocksDB v6.4.6 (db_bench),截至英特尔2022年9月的测试。
8380:1-节点,2个第三代英特尔®至强®可扩展处理器(40核),Coyote Pass平台,启用超线程,启用睿频,关闭 SNC,总内存 1024GB (16x64GB DDR4 3200),微代码 0xd000375,1x 1.92TB INTEL SSDSC2KG01,Ubuntu 22.04.1 LTS,5.18.12-051812-generic,ZSTD v1.5.2,RocksDB v6.4.6 (db_bench),截至英特尔2022年10月的测试。
10 英特尔® 至强® 8380:截至英特尔2022年10月7日的测试。1-节点,2个英特尔® 至强® 可扩展处理器8380,启用超线程,启用睿频,总内存 256 GB (16x16GB 3200MT/s DDR4),BIOS版本 SE5C620.86B.01.01.0006.2207150335,ucode 版本=0xd000375,Rocky Linux 8.6,Linux 版本4.18.0-372.26.1.el8_6.crt1.x86_64,YASK v3.05.07
英特尔® 至强® CPU Max系列:截至英特尔2022年第36周的测试。1-节点,2x 英特尔® 至强® CPU Max系列,启用超线程,启用睿频,SNC4,总内存 128 GB (8x16GB HBM2 3200MT/s),BIOS 版本 SE5C7411.86B.8424.D03.2208100444,ucode 版本=0x2c000020,CentOS Stream 8,Linux 版本 5.19.0-rc6.0712.intel_next.1.x86_64+server,YASK v3.05.07。
11 第四代英特尔®至强®可扩展处理器优化电源模式开启时比关闭时系统节能可高达20%,包括SpecJBB、PECINT 和 NIGNX key handshake等特定工作负载。
12英特尔® 至强® 8480+:Numenta 截至2022年11月28日的测试。1-节点,2个英特尔® 至强® 8480+,512 GB DDR5-4800,Ubuntu 22.04 Kernel 5.17,OpenVINO 2022.3,Numenta-Optimized BERT-Large,Sequence Length 512,Batch Size 1
英特尔® 至强® Max 9468:Numenta 截至2022年11月30日的测试。1-节点,2x 英特尔® 至强® Max 9468,128 GB HBM2e 3200 MT/s,Ubuntu 22.04 Kernel 5.15,OpenVINO 2022.3,Numenta-Optimized BERT-Large,Sequence Length 512,Batch Size 1
13 英特尔® 至强® 8380:英特尔截至2022年10月28日的测试。1-节点,2x 英特尔® 至强® 8380 CPU,启用超线程,启用睿频,总内存 256 GB (16x16GB 3200MT/s,Dual-Rank),BIOS 版本 SE5C6200.86B.0020.P23.2103261309,ucode 版本=0xd000270,Rocky Linux 8.6,Linux 版本 4.18.0-372.19.1.el8_6.crt1.x86_64
集成HBM的英特尔® 至强® CPU Max系列: 英特尔截至2022年10月28日的测试。1-节点,2x 英特尔® 至强® Max 9480,启用超线程,启用睿频,总内存 128 GB HBM2e,BIOS EGSDCRB1.DWR.0085.D12.2207281916,ucode 0xac000040,SUSE Linux Enterprise Server 15 SP3,Kernel 5.3.18,oneAPI 2022.3.0
含DDR的英特尔® 数据中心 GPU Max系列主机:英特尔截至2022年10月28日的测试。1-节点,2个英特尔® 至强® Max 9480,启用超线程,启用睿频,总内存 1024 GB DDR5-4800 + 128 GB HBM2e,内存模式:扁平,HBM2e未使用,6个英特尔® 数据中心 GPU Max系列,BIOS EGSDCRB1.DWR.0085.D12.2207281916,ucode 0xac000040,Agama pvc-prq-54,SUSE Linux Enterprise Server 15 SP3,Kernel 5.3.18,oneAPI 2022.3.0
含HBM的英特尔®数据中心 GPU Max 系列主机:英特尔截至2022年10月28日的测试。1-节点,2x 英特尔® 至强® Max 9480,启用超线程,启用睿频,总内存 128 GB HBM2e,6x 英特尔® 数据中心 GPU Max 系列,BIOS EGSDCRB1.DWR.0085.D12.2207281916,ucode 0xac000040,Agama pvc-prq-54,SUSE Linux Enterprise Server 15 SP3,Kernel 5.3.18,oneAPI 2022.3.0