详解 | Google第二代 TPU,既能推理又能训练,性能霸道
200 多家明星企业,20 位著名投资机构顶级投资人共同参与!「新智造成长榜」致力于发掘 AI 领域有 “三年十倍” 成长潜力的创新公司,下一波 AI 独角兽,会有你么?点击阅读原文了解详情!
雷锋网消息,5 月 18 日凌晨,Google CEO Sundar Pichai 在 I/O 大会上正式公布了第二代 TPU,又称 Cloud TPU 或 TPU 2.0,这一基于云计算的硬件和软件系统,将继续支撑 Google 最前沿的人工智能技术。
第一代 TPU 于去年发布,它被作为一种特定目的芯片而专为机器学习设计,并用在了 AlphaGo 的人工智能系统上,是其预测和决策等技术的基础。随后,Google 还将这一芯片用在了其服务的方方面面,比如每一次搜索都有用到 TPU 的计算能力,最近还用在了 Google 翻译、相册等软件背后的机器学习模型中。
今天凌晨,Google 宣布第二代的 TPU 系统已经全面投入使用,并且已经部署在了 Google Compute Engine 平台上。它可用于图像和语音识别,机器翻译和机器人等领域。
新的 TPU 包括了四个芯片,每秒可处理 180 万亿次浮点运算。Google 还找到一种方法,使用新的计算机网络将 64 个 TPU 组合到一起,升级为所谓的 TPU Pods,可提供大约 11500 万亿次浮点运算能力。
强大的运算能力为 Google 提供了优于竞争对手的速度,和做实验的自由度。Google 表示,公司新的大型翻译模型如果在 32 块性能最好的 GPU 上训练,需要一整天的时间,而八分之一个 TPU Pod 就能在 6 个小时内完成同样的任务。之所以开发新芯片,部分也是因为 Google 的机器翻译模型太大,无法如想要的那么快进行训练。
除了速度,第二代 TPU 最大的特色,是相比初代 TPU 它既可以用于训练神经网络,又可以用于推理。初代的 TPU 只能做推理,要依靠 Google 云来实时收集数据并产生结果,而训练过程还需要额外的资源。
机器学习的能力已经逐渐在消费级产品中体现出来,比如 Google 翻译几乎可以实时将英语句子变成中文,AlphaGo 能以超人的熟练度玩围棋。所有这一切都要靠训练神经网络来完成,而这又需要计算能力。所以硬件越强大,得到的结果就越快。如果将每个实验的时间从几周缩短到几天或几个小时,就可以提高每个机器学习者快速迭代,并进行更多实验的能力。由于新一代 TPU 可以同时进行推理和训练,研究人员能比以前更快地部署 AI 实验。
过去十多年来,Google 已经开发出很多新的数据中心硬件,其中包括服务器和网络设备,主要目的是扩张自己的在线帝国。而过去几年中,在 AI 方面 Google 也选择开发自己的硬件,为其软件做优化。神经网络是复杂的数学系统,通过分析大量数据来学习,这种系统从根本上改变了技术的构建和运行方式,影响范围也包括硬件。
在某种程度上,初代的 TPU 被设计来是为了更好地支持 TensoFlow 机器学习框架。而归功于 Google 在软硬件上的进步与集成,TensorFlow 已经成为构建 AI 软件的领先平台之一。这种优化,再加上 Google 大脑及其 DeepMind 子公司的内部人才,正是 Google 在 AI 领域保持领先的部分原因。
芯片厂商 NVidia 的 GPU 几乎主宰了机器学习的市场,而现在,Google 想通过专门设计用于训练神经网络的芯片,来改变市场提格局。
亚马逊和微软通过自己的云服务提供 GPU 处理,但他们不提供定制的 AI 芯片。
不过 Google 也不能因此而高枕无忧,因为短期内竞争就会加剧。目前已经有几家公司,包括芯片巨头英特尔和一大批初创公司,正在开发专门的 AI 芯片,它们都可能替代 Google TPU。
首先开发出新的芯片并不能保证 Google 成功,要使用 TPU 2.0,开发者要学习一种构建和运行神经网络的新方法。它不仅仅是一个新的芯片,TPU 2.0 也是专门为 TensorFlow 设计。虽然 Tensorflow 是开源软件,但也有许多研究人员使用 Torch 和 Caffe 等类似的软件。新硬件需要新的软件优化,这需要不少时间。
在 Google 推出 TPU 2.0 的几周之前,Facebook 的 AI 研究主管 Yann LeCun 质疑称,市场可能不需要新的 AI 专用芯片,因为研究者已经对使用 GPU 所需的工具非常熟悉了。新的硬件意味着新的生态系统。
另外,Google 云服务的成功不仅取决于芯片的速度,以及使用的容易程度,还要考虑成本。所以,如果 Google 以比现有 GPU 服务更低的成本提供 TPU 服务,会得到更广泛的用户基础。
Google 自己当然会使用新 TPU 系统,但也会将它的能力开放给其它公司使用。Google 表示,不会将芯片直接出售,而是会通过其新的云服务(年底前公布)提供,任何开发者都可以使用新处理器带来的计算能力。
Google 也重申了其对开源模式的承诺,表示会向同意发布研究结果的研究人员提供 TPU 资源,甚至可能开源代码。他甚至呼吁开发者加入 TensorFlow Research Cloud 计划,它会免费提供一组 1000 台 TPU。
新 TPU 的速度优势肯定会吸引到不少研究人员,毕竟 AI 研究要在大量硬件上广泛试错。就此而言,Google 愿意免费提供计算资源对全世界的 AI 研究者来说都是有好处的,当然,这对 Google 来说也是有好处的。
推荐帖子