IBM声称已开发出世界上第一批采用7纳米技术构建的用于AI推理和训练的高能效芯片。在2月初举行的2021年国际固态电路虚拟会议上,该公司的研究人员详细介绍了一种硬件加速器,该加速器支持多种模型类型,同时在所有模型类型上实现“领先”的电源效率。
AI加速器是一种专用硬件,旨在加速AI应用程序,特别是神经网络,深度学习和机器学习。它们在设计上是多核的,并且专注于低精度算术或内存计算,这两者都可以提高大型AI算法的性能,并带来更好的自然语言处理,计算机视觉和其他处理。
IBM表示,其四核的芯片(仍处于研究阶段)已针对具有许多不同的AI和机器学习模型的低精度工作负载进行了优化。与高精度技术相比,低精度技术需要更少的硅面积和功耗,从而提高了缓存利用率,并减少了内存瓶颈。这通常会减少训练AI模型的时间和精力成本。
上图:IBM建议的AI芯片的示意图。图片来源:IBM
IBM的AI加速器芯片是少数采用超低精度“混合FP8 ”格式并以基于极端紫外线光刻的封装来训练深度学习模型的芯片。它也是率先采用电源管理的功能之一,能够通过在高功耗的计算阶段放慢速度来最大化性能。它提供了很高的持续利用率,表面上可以转化为卓越的实际应用性能。
据了解,这颗芯片用于用于“混合” FP8训练的时候,具有25.6Tflop / s的速度,而用于INT4推理,也可以做到102.4Top / s的速度。
混合8位浮点(HFP8)是IBM发明的一种格式(于2019年发布),它克服了标准8位(1个符号,5个指数,2个尾数)FP8浮点格式的局限性,在训练特定的8位浮点格式时效果很好标准神经网络,但在训练其他网络时会导致准确性降低。混合FP8使用4个指数和3个尾数位进行正向传播,然后使用5个指数和2个尾数位进行逆向传播,这大大提高了训练的准确性。
四个核通过一对宽的快速数据环链接在一起,一个用于顺时针传输,另一个用于逆时针传输。这些可以保持在芯片内关闭,也可以通过外部存储器或多个相同的芯片打开并路由,以处理更大的网络。环和内核是异步的,以允许不同的时钟速率分别交换功率以提高性能。
每个核心分为两个共享暂存存储器的子核心,然后每个子核心具有8×8引擎阵列,这些引擎经过优化,可通过用于浮点和定点计算的单独管道来加速卷积和矩阵乘法–一起提供FP16,HFP8,INT4和INT2具有AI训练和推理功能。
该36mm 2 芯片采用EUV光刻技术制造,通过内核上的0.75V和SRAM上的0.95V达到了上述性能指标。利用在编译网络时收集的网络知识,该芯片可以限制耗电的网络层,以将其保持在功耗预算之内。标称工作频率(0.55V内核,0.7V SRAM)产生1GHz时钟,并具有3.5Tflop / s / W FP8和16Top / s / W INT4。
在实验中,IBM表示,其AI芯片通常可达到80%以上的训练利用率和60%以上的推理利用率。此外,该芯片的性能和功率效率超过了其他专用推理和训练芯片。
IBM研究的基准结果。图片来源:IBM
IBM未来2-3年的目标是将新颖的AI芯片设计商业应用到一系列应用中,包括在云,隐私,安全性和自动驾驶汽车方面的大规模训练。IBM研究人员Ankur Agrawal和Kailash Gopalakrishnan在博客中写道:“我们的新AI核心和芯片可用于跨多个行业的许多新的云到边缘应用程序。” “例如,它们可以用于使用8位格式(相对于当前行业中使用的16位和32位格式)的视觉,语音和自然语言处理中的大规模深度学习模型的云训练。它们还可以用于云推理应用程序,例如语音到文本AI服务,文本到语音AI服务,自然语言处理服务。
关键字:IBM
引用地址:
IBM研制出新款AI芯片,利用效率更高
推荐阅读最新更新时间:2024-11-07 15:38
人工智能医疗再定位:未来是能否当“主角”?
“医生是盘活大数据的核心环节,没有专业的医生一切数据都是没有价值的,也就是说医生仍是治疗的核心,尤其是在肿瘤等癌症治疗领域。 IBM 沃森的开发是给医生做伙伴,临床协助,替代医生是不可能的。”对于加州大学伯克利分校教授、 人工智能 专家MichaelJordan日前在腾讯“云+未来”峰会上公开表达了对AI技术应用于医疗诊断中的担忧,百洋医药集团、百洋智能科技董事长付钢给出了这样的判断。下面就随网络通信小编一起来了解一下相关内容吧。 MichaelJordan在腾讯“云+未来”峰会上表示:“我们所谓的 人工智能 看上去很智能,但并非如此。比如说在医疗行业中,我们让机器做很多的医学诊断,这是不太可能的,有很多人会因为这种不畅
[网络通信]
联想高调发债 IBM夏普摩托均为潜在并购对象
6月3日消息,《道琼斯》日前引述消息人士称,联想已聘请投资银行本周一在香港、新加坡及伦敦进行路演,筹备发行美元计价债券。随后联想发布公告称,计划向专业及机构投资者发售及发行票据,所得款项净额用作一般企业用途,包括其营运资金,及可能发生的任何收购活动资金。 据联想集团2012/13财年财报显示,联想集团持有现金30.94亿美元,在现金状况良好的情况下,这次发债消息让此前本就沸沸扬扬的收购IBM小型机业务传闻进一步发酵。目前,联想在手机业务、电视业务、服务器业务上均有“绯闻”对象,且刚刚宣布了将在7年内超越三星的豪言,这笔融资或许就将用于PC之外的一起或多起并购业务。 可能一:IBM小型机业务 早在4月18日IBM公布2013财
[手机便携]
IBM研制出新款AI芯片,利用效率更高
IBM声称已开发出世界上第一批采用7纳米技术构建的用于AI推理和训练的高能效芯片。在2月初举行的2021年国际固态电路虚拟会议上,该公司的研究人员详细介绍了一种硬件加速器,该加速器支持多种模型类型,同时在所有模型类型上实现“领先”的电源效率。 AI加速器是一种专用硬件,旨在加速AI应用程序,特别是神经网络,深度学习和机器学习。它们在设计上是多核的,并且专注于低精度算术或内存计算,这两者都可以提高大型AI算法的性能,并带来更好的自然语言处理,计算机视觉和其他处理。 IBM表示,其四核的芯片(仍处于研究阶段)已针对具有许多不同的AI和机器学习模型的低精度工作负载进行了优化。与高精度技术相比,低精度技术需要更少的硅面积和功耗,从
[嵌入式]
IBM半导体业有多强
最近IBM公司拟出售半导体制造业务的新闻传得沸沸扬扬,业界也在强力呼吁中国半导体企业接盘。先不论其到底“情”归何处,我们来看IBM半导体业务有多强?
IBM是全球著名的IT服务供应商。IBM在全球有43万多职员,年销售额近1000亿美元,每年在研发上投入约60亿美元资金。去年IBM的专利发明人有8000人,遍及美国46个州和全球35个国家。
IBM己连续第20年(since1993年始)成为获得美国专利最多的公司。据美国商业专利数据库(IFI Claims Patent Services)称,IBM在2012年获得6478项美国专利,刷新该公司的历史新记录。
然而,在半导体领域可能并不太了解它,实际上它是一家半导体技术
[嵌入式]
IBM和飞思卡尔再度联手推进多内核,互联技术仍是合作症结
IBM和飞思卡尔在1990年代合作开发Power微处理器后分道扬镳,而今,两家公司透过Power.org组织再度联手。 两家公司面对的最大的障碍之一,就是能否解决双方长期形成的差异,决定采用哪种片上总线来驶入多内核未来。飞思卡尔仍把自己较有前景的CoreNet技术紧紧握在手中。 尽管IBM已要求提供这个片上结构的技术细节,飞思卡尔却并未予取予求。一个要求匿名的飞思卡尔人士透露,对于是该继续持有CoreNet技术专利、把它授权给IBM还是通过Power.org向所有索取者开放,这家公司内部存在着不同意见。 飞思卡尔把CoreNet互联技术作为自己多核处理器系列的关键组成部分,从将于明年推出的45纳米产品开始,该公司将最终在其所
[焦点新闻]
IBM将在英增设4处数据中心 全欧合计达16处
随着客户需求不断增加,IBM宣布将扩大在英国投资,增设4处具有认知智能运算能力的数据中心服务。这些服务开放后,该公司在英国提供数据中心数将达6处,在欧洲总数达16处。目前IBM已在全球设有超过50处的数据中心服务。 根据IBM官网,过去5年英国云端服务采用率已提高到84%,并且使用两项或更多项云端服务的用户占78%。此外,预估2020年全球公共云服务市场规模有望超越1,950亿美元。 此次IBM在英国的投资,将使客户在数据管理上具有更大的灵活性、透明度与控制性,并可使业者直接运用当地数据中心,部署IT作业与运行云端业务。其中位于英国Fareham地区的新数据中心服务,预计会率先于2016年底开放使用,其余三处则会于2017
[手机便携]
IBM推AI深度学习计划:节约开发成本 提高学习效率
今日,IBM公司宣布为人工智能(AI)开发人员推出新的深度计划,名为“深度学习即服务”计划(Deep Learning as a Service,简称DLaaS)。开发者可以借助TensorFlow、PyTorch、Caffe、Keras等流行框架来训练人工智能的神经网络,而不需自己掏钱购买、维护昂贵的硬件。 实际上,IBM是以原生的云服务方式将这些工具提供给了开发者。开发者可以使用标准的Rest API,借助他们想要的、或在他们预算范围内的资源,来训练自己的模型。 借助该计划的服务,数据科学家只需要按GPU使用时间来支付费用,就可以使用所需的资源训练AI模型。每个云处理单元都可用于深度学习网络变成,也易于操作,无需用户进行基础
[机器人]
IBM研发出高速低功耗光接收机
近日,在2017年超大规模集成电路技术研讨会上,IBM宣布已研发出首款高速低功耗光接收机,传输速率高达60Gbit/s,光接收机采用单通道高速非归零(NRZ)接收信号,并搭载14nm场效应晶体管,拥有大容限数字时钟和数据恢复功能。下面就随模拟电子小编一起来了解一下相关内容吧。 IBM工程师Alessandro Cevrero表示,在一个小的CMOS芯片中,本次实现了60Gbit/s接收速率是之前的两倍,也就是降低了一半的传输成本。这一突破性的CMOS光子学技术可以应用到处理器或芯片,具有9dB/mw灵敏度的功耗,非常适合高带宽连接、高吞吐量要求的云计算、数据中心等应用。 在光纤通信系统传输过程中,接收信号一般较弱,接收机理论上应
[模拟电子]