Meta使用16000个 Nvidia A100 打造超级计算机
最新更新时间:2022-01-25
阅读数:
来源:内容由半导体行业观察(ID:icbank)编译自tomshardware,谢谢。
Meta(以前称为 Facebook)正在一个目前未公开的位置构建一个新的人工智能超级计算机,称为人工智能研究超级集群。根据 Meta的说法,如果性能指标超过 220 Linpack petaflops,它将成为迄今为止世界上最快的超级计算机。RSC 目前正在运行,但仍在建设中。
这台新超级计算机的规格令人印象深刻,因为 RSC 目前具有 760 个 Nvidia 最先进的 DGX A100 AI 计算单元,每个单元包括 8 个 Nvidia A100 GPU。这使得整个超级计算机总共有 6,080 个 GPU。但是,一旦完成,RSC 将包含多达 16,000 个 GPU 和额外的 1,240 个 DGX 节点。第二个安装阶段将在 7 月的某个时候完成。
对于网络,超级计算机将配备 Nvidia 的 Quantum InfiniBand 网络系统,该系统可输出高达 200Gb/s 的带宽。存储方面,超级计算机配备了 175PB 的 Pure Storage FlashArray、10PB 的 Pure Storage FlashBlade 和 46PB 的缓存存储。
据英伟达介绍,一旦完全部署,Meta 的 RSC 预计将成为 NVIDIA DGX A100 系统的最大客户安装。
“我们希望 RSC 能够帮助我们构建全新的 AI 系统,例如,可以为一大群人提供实时语音翻译,每个人都说不同的语言,这样他们就可以在研究项目上无缝协作或玩 AR 游戏一起,”该公司在博客中说。
当 RSC 在今年晚些时候完全建成时,Meta 的目标是用它来训练具有超过一万亿个参数的 AI 模型。这可以推进诸如实时识别有害内容等工作的自然语言处理等领域。
除了大规模性能之外,Meta 还引用了极高的可靠性、安全性、隐私性和处理“广泛的 AI 模型”的灵活性作为 RSC 的关键标准。
新的 AI 超级计算机目前使用 760个NVIDIA DGX A100 系统作为其计算节点。它们在NVIDIA Quantum 200Gb/s InfiniBand网络上连接了总共 6,080 个NVIDIA A100 GPU ,以提供 1,895 petaflops 的 TF32 性能。
尽管面临 COVID-19 的挑战,RSC 仅用了 18 个月的时间就从纸上的想法变成了可运行的 AI 超级计算机(如下视频所示),这部分归功于 Meta RSC 基础的 NVIDIA DGX A100 技术。
英伟达表示,这是 Meta 第二次选择 NVIDIA 技术作为其研究基础设施的基础。2017 年,Meta 使用 22,000 个 NVIDIA V100 Tensor Core GPU 构建了第一代 AI 研究基础设施,每天处理 35,000 个 AI 训练工作。
Meta 的早期基准测试表明,RSC 训练大型 NLP 模型的速度比之前的系统快 3 倍,运行计算机视觉作业的速度快 20 倍。
在今年晚些时候的第二阶段,RSC 将扩展到 16,000 个 GPU,Meta 认为这些 GPU 将提供高达 5 exaflops 的混合精度 AI 性能。Meta 旨在扩展 RSC 的存储系统,以每秒 16 TB 的速度提供高达 1 EB 的数据。
★ 点击文末【阅读原文】,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2931内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
点击阅读原文,可查看本文
原文链接!