NVIDIA DGX SuperPOD 助力京东探索研究院 Vega-MT 模型大赛夺魁!

发布者:EE小广播最新更新时间:2023-01-17 来源: EEWORLD关键字:NVIDIA 手机看文章 扫描二维码
随时随地手机看文章

模型训练任务缩短到两周内完成,且在算力和扩展性上都有倍数提升。


 image.png

图片来源于京东


借助 NVIDIA DGX SuperPOD,京东探索研究院训练了参数量近五十亿的 Vega-MT 模型,在 2022 年第 17 届国际机器翻译大赛(WMT)上大放异彩。Vega-MT 在中文-英语(BLEU 33.5, chrF 0.611)、英文-中文(BLEU 49.7, chrF 0.446)、德语-英语(BLEU 33.7, chrF 0.585)、英语-德语(BLEU 37.8, chrF 0.643)、捷克语-英语(BLEU 54.9, chrF 0.744)、英语-捷克语(BLEU 41.4, chrF 0.651)和英语-俄罗斯语(BLEU 32.7, chrF 0.584)在七个翻译赛道上荣获冠军。


作为大规模 AI 基础架构,NVIDIA DGX SuperPOD 具备完整、先进的基础架构。相较于原来的 V100 集群,DGX SuperPOD 除了在单卡算力上取得了接近两倍的提升外,在算力扩展性方面也呈线性增长,即扩展性方面相较于从前也取得了两倍的提升。在多节点的情况下总计获得了约 4 倍的提升。因此,原本需要数月才能完成类似模型(相当规模、相当复杂度)的训练任务缩短到了两周,研究人员也有了更充裕的时间针对模型优化。


客户简介及应用背景


京东作为以供应链为基础的技术与服务企业。京东探索研究院(JD Explore Academy)秉承“以技术为本,致力于更高效和可持续的世界”的集团使命,是以京东集团以各事业群与业务单元的技术发展为基础,集合全集团资源和能力,成立的专注前沿科技探索的研发部门,是实现研究和协同创新的生态平台。探索研究院深耕泛人工智能 3 大领域,包括“量子机器学习”、“可信人工智能”、“超级深度学习”,从基础理论层面实现颠覆式创新,助力数智化产业发展及社会变革,以原创性科技赋能京东集团零售、物流、健康、科技等全产业链场景,打造源头性科技高地,实现从量变到质变的跨越式发展,引领行业砥砺前行。


国际机器翻译大赛(WMT)是全球学术界公认的国际顶级机器翻译比赛,由国际计算语言学协会(ACL)举办,是协会旗下的顶尖赛事。自 2006 年至今,WMT 的每次比赛都是全球各大高校、科技公司与学术机构展示自身机器翻译实力的平台,更见证了机器翻译技术的不断进步。


京东探索研究院在 WMT 大赛上这一重大成就进一步验证了自然语言处理大模型在理解、生成、跨语种建模上的优越性。


客户挑战


机器翻译面临诸多挑战:常见的几个语种使用广泛数据资源丰富,小语种在跨境电商中非常必要但数据不充分,小数据集的训练面临挑战;同时,挖掘语种与语种的联系也是难点之一,因为语言生成的复杂性、多义性,表达的多样性、文化背景,语种之间的差异等都是机器翻译比赛中绕不开的难题。


从 2018 年的 GPT-1 的 1.1 亿参数,到现今大规模语言模型拥有万亿参数,大模型在多种语言任务上准确率的显著提高,有助于我们构建对自然语言有着更加丰富理解的智能系统。


Vega-MT 采用了诸多先进技术,包括多方向预训练(multidirectional pre-training)、超大模型(Extremely Large Transformer)、循环翻译(cycle translation)和双向自训练(bidirectional self-training),来充分挖掘双语数据、单语数据的知识。此外,还使用了噪声信道重排序和泛化性微调等策略来增强 Vega-MT 系统的鲁棒性和译文的信达雅水平。


但是,在训练大模型时,我们依然会面临诸多困难。在此之前对于一般任务一张 GPU 即可胜任模型的训练,但是在大模型场景,需要多节点协同才能完成最终的训练任务,这也对现有的 GPU 计算集群提出了新的挑战。以知名的 GPT-3 为例,它使用了 45 TB 的训练数据,最高达到 1750 亿的模型参数量;在采用混合精度时,它共占用约 2.8 TB 的显存,需要超过 35 张 GPU 才能将模型全部放下。


因此,训练的挑战集中在单卡算力和多卡多节点通信上,训练也会跨越多个节点。此时数据传输、任务调度、并行优化、资源利用率等方面就显得尤为重要。


应用方案


在构建 AI 基础架构时,我们会面临来自方方面面的挑战,例如计算资源,网络,存储,乃至最上层用来进行任务调度的软件等,而这些方面并非独立,需要综合考量。


京东探索研究院采用的 NVIDIA DGX SuperPOD 就是一套综合完整的高性能解决方案。SuperPOD AI 集群,基于 DGX 服务器,HDR InfiniBand 200G 网卡以及 NVIDIA Quantum QM8790 交换机,计算网络和储存网络隔离,既保证了最优的算力,又可以确保节点和卡之间的高效互联,最大程度提升分布式训练的效率。


算力层面,单节点算力高达 2.4 PFLOPS,采用单节点进行训练,BERT 只需 17 分钟即可完成训练,Mask R-CNN 38 分钟,RetinaNet 也只需 83 分钟。而针对于 Transformer XL Base,181 分钟即可完成训练。同时,依托于多实例 GPU(Multi-Instance GPU, MIG)技术,可以将 GPU 分割成多个实例,每个实例都有其独立的显存,缓存以及流式多处理器,彼此之间故障隔离。这样一来可以进一步提升 GPU 的利用率,同时满足需要不同算力的任务。


网络层面,通过 Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)技术,可以让聚合计算从 CPU 迁移到交换机网络,消除了节点之间多次发送数据的需求,大幅缩减了到达聚合节点的网络流量,从而显著减少执行 MPI 的时间,同时让通信效率与节点数目不再直接相关,进一步保障了算力的可扩展性。除此之外,将 CPU 从处理通信的任务中解脱出来,让宝贵的 CPU 资源聚焦于计算上,进一步提升了整体集群处理任务的能力。


储存层面,在训练模型时,往往需要从存储中多次读取训练数据,而读取操作的耗时也会在一定程度上影响训练的时效。DGX SuperPOD 使用了高性能的多层级储存架构,以平衡性能、容量和成本的需求。而借助于 GPU Direct RDMA 技术,可以绕过 CPU 直接连通 GPU,储存和网络设备,从而进行高速低时延的数据传输。


软件层面,为了构建集群以及保障集群的持久化平稳运行,上层的监控调度管理软件不可或缺。Base Command Manager 是一个集群管理系统,它可以对集群进行一系列的配置,管理用户访问,资源监控,记录日志,以及通过 slurm 进行作业任务调度。同时,NGC 上涵盖了大量 AI,HPC,数据科学相关的资源,用户可以轻松获取到功能强大的软件,容器镜像,以及各类预训练模型。


与此同时,探索研究院团队对集群进行了 7x24 小时的监控管理,确保训练任务长时间的平稳运行。监控资源利用率,也确保了每个节点上的计算资源能被充分地利用了起来。在完善的调度监控工作和 DGX SuperPOD 高可靠性的质量保证下,所有被使用到的训练节点在模型训练的 20 天(2 周 pre-training + 5天 fine-tuning)内,没有出现任何问题,训练最终圆满完成。


使用效果及影响


Vega-MT 被成功应用在了京东国庆期间对外发布的 Omni-Force AIGC 小程序中。小程序的应用是用户输入文字生成对应的图片,在 Vega-MT 的加持下,小程序可以支持多个语种的文字输入,譬如中文、英文、西班牙文等等。


京东探索研究院表示: “通过 NVIDIA DGX SuperPOD 的加持,京东探索研究院可以快速迭代模型,帮助高准确度的模型快速落地,进一步提升用户体验,降低成本,提升效果和业务收益。此次 NVIDIA DGX SuperPOD 支持我们能在 WMT 比赛中拔得头筹,不仅提高了企业的知名度,也助力了京东成为更受用户信赖的品牌”。


值得一提的是,除了 Vega-MT 外,NVIDIA DGX SuperPOD 也在探索研究院的其他大模型训练上发挥了不可或缺的作用,譬如 ViTAE,织女模型等。


关键字:NVIDIA 引用地址:NVIDIA DGX SuperPOD 助力京东探索研究院 Vega-MT 模型大赛夺魁!

上一篇:英飞凌TRAVEO™ T2G-C系列微控制器和Altia CloudWare™软件平台亮相CES 2023
下一篇:提供长传输距离、大內存、高度安全的FG25 sub-GHz SoC现在全面供货

推荐阅读最新更新时间:2024-10-11 02:57

NVIDIA助力机器人技术的提升 为构建自主机器统一平台树立了里程碑
NVIDIA创始人兼首席执行官在NVIDIA的技术会议(GTC CHINA 2019)上宣布了该消息。在建立统一的机器人开发平台以实现、仿真和操控功能方面,Isaac SDK迈出了重要的里程碑。 Isaac SDK包括Isaac Robocs Engine(提供应用程序框架),Isaac GEM(预先构建的深度模型、算法、库、驱动程序和API),用于室内物流的参考应用程序以及Isaac Sim的第一个版本(提供导航功能)。 全新Isaac SDK可以大大加快研究人员、开发人员、初创企业和制造商开发和机器人的速度。它使机器人能够通过仿真获得由人工智能技术驱动的感知和训练功能,从而可以在各种环境和情况下对机器人进行测试和
[机器人]
图形芯片市场四季增长缓慢 移动领域表现突出
著名市场调研公司Jon Peddie Research(JPR)公布了2006年第4季度图形芯片市场占有率统计报告。处理器巨头Intel仍然是最大的图形芯片供应商,毫无悬念继续虎踞榜首,但是所有企业的图形芯片销量都没有大幅度成长。 但是Jon Peddie公司的调查报告也指出,微软新一代操作系统Windows Vista的发布、AMD-ATI将于3月发布的R600和NVIDIA 8800GTS图形芯片将在今年刺激独立式桌面图形芯片市场成长。 根据JPR这份报告,06年第四季度台式机图形芯片市场出货量较第三季度下滑4%,其中独立式桌面图形芯片出货量较第3季度下滑6%,较05年同期下滑8.9%。 而移动图形芯片市场相当火爆,季度增
[焦点新闻]
麻省理工学院在 NVIDIA DRIVE AGX Pegasus 上开发出一体化自动驾驶网络
从英伟达获悉,麻省理工学院的研究人员正在开发一个一体化深度神经网络(DNN)为自动驾驶汽车提供支持,并取代由多个网络组成的系统。 据悉,在今年 COMPUTEX 上发表的这项研究使用了 NVIDIA DRIVE AGX Pegasus 在车辆中运行网络,能够高效、实时地处理激光雷达数据。 自动驾驶汽车传感器会产生大量数据。如果一个由 50 辆车组成的车队每天行驶 6 小时,那么每天就会产生约 1.6PB 的传感器数据。 在论文中,麻省理工学院团队详细介绍了如何使用一个一体化 DNN 尝试新的自动驾驶策略,首先就是要完成实时激光雷达传感器数据处理任务。通过运用 NVIDIA DRIVE AGX Pegasus,该团队进一
[汽车电子]
NVIDIA、超微各擅胜场 绘图晶片双雄呈现拉锯战
    面对超微(AMD)与英特尔(Intel)力拱平台化大计以及处理器整合绘图核心世代来临,没有x86处理器及晶片组授权的NVIDIA所承受的压力只增不减,据最新市调机构Mercury Research最新调查显示,尽管NVIDIA以59.4%表现,稳居2011年第1季桌上型电脑(DT)绘图晶片市占龙头,但在笔记型电脑(NB)绘图晶片却难以超越超微,整体绘图晶片(不含IGP)市占与超微形成拉锯局势,面临中低阶绘图晶片市场持续萎缩,NVIDIA如何进一步突破困境备受关注。     受到英特尔、超微夹击,NVIDIA逐步退出晶片组市场,此也令NVIDIA在包含IGP晶片组及独立绘图晶片的整体绘图晶片版图持续萎缩,不过单就独立绘图晶片
[手机便携]
芯片巨头英特尔高通英伟达火拼车联网市场
    因为在CES开展前一天宣布成立开放汽车联盟,Google与苹果的iOS in the Car的竞争一下子成为最引人注目的焦点,两大平台在移动设备领域的战火看起来已经蔓延到车联网的战场。而除了这两个大玩家,目前看来颇有雄心的黑莓和诺基亚、以及一些厂商基于Linux的自研平台也都已经跃跃欲试—但是,你以为在车联网领域,这些应用平台之争就是全部了么?   事实上,比起这几个现在还在“吆喝”的平台,真正的竞争早就已经展开—不是还在各自蓄力的Google与苹果,而是已经不断推出新品、想要对着汽车厂商名单跑马圈地的底层芯片商们。   举个很简单的例子,在被我们戏称为“全球第六大车展”的CES上,谁是最积极叫卖“车载智能”这一概念的
[手机便携]
NVIDIA加入Metaverse Standards Forum,帮助奠定元宇宙的基础
元宇宙是互联网向3D网络进化过程中的下一个重要阶段,将为娱乐、汽车、制造业、机器人等各个行业带来重大机遇。 因此,NVIDIA与合作伙伴一同加入了Metaverse Standards Forum,所有相关方都可以在这个开放的平台上讨论并定夺如何以最好的方式来奠定元宇宙的基础。 从2D互联网到3D互联网 1970年代和1980年代的早期互联网完全通过基于文本的界面、UNIX shell和控制台访问。1990年代出现的万维网将图像和文字以网页的形式组合成2D世界,并通过这个更自然、更直观的接口使数百万人能够访问互联网。 即将出现的元宇宙是一种3D互联网。它通过打造一个高度接近现实世界的互联网接口,延续了互联网更容易
[网络通信]
<font color='red'>NVIDIA</font>加入Metaverse Standards Forum,帮助奠定元宇宙的基础
英伟达第一季度营收56.61亿美元 净利润同比增长109%
北京时间5月27日凌晨消息,据报道,英伟达今日公布了该公司的2022财年第一季度财报。报告显示,英伟达第一季度营收为56.61亿美元,与上年同期的30.80亿美元相比增长84%,与上一季度的50.03亿美元相比增长13%;净利润为19.12亿美元,与上年同期的9.17亿美元相比增长109%,与上一季度的14.57亿美元相比增长31%;不按照美国通用会计准则的净利润为23.13亿美元,与上年同期的11.20亿美元相比增长107%,与上一季度的19.57亿美元相比增长18%。    英伟达第一季度调整后每股收益和营收均超出华尔街分析师预期,对2022财年第二季度营收的展望也超出预期,但其盘后股价仍旧小幅下跌。    第一财季主要业绩:
[半导体设计/制造]
外媒:亚马逊正在开发自主AI芯片 英特尔、NVIDIA或受冲击
The Information报导指出,亚马逊(Amazon)可能已在为未来Echo装置开发专用AI芯片,以提升其离线性能,也可能会为亚马逊云端服务(AWS)数据中心开发AI芯片。亚马逊此举或将冲击为其AWS数据中心供应大量芯片的英特尔(Intel)和NVIDIA。   据The Motley Fool报导,亚马逊此举并不令人意外,因为该公司之前已收购以色列芯片制造商Annapurna Labs及安全监视器制造商Blink,取得芯片开发能力。而亚马逊在芯片方面的投资举动与苹果(Apple)和Google类似。   苹果已用自主芯片逐渐取代iPhone中的第三方芯片。Google则在几年前为其机器学习任务打造Tensor Proce
[半导体设计/制造]
小广播
最新工业控制文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved