大模型时代的AI之变与开发之根

最新更新时间:2021-11-01来源: eefocus关键字:AI  谷歌  中科院  电磁 手机看文章 扫描二维码
随时随地手机看文章

自2018年谷歌发布Bert以来,预训练大模型以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集。随着产学研各界的深入研究,大模型在AI产学研各界的地位得到不断加强。到2021年,我们可以看到各大学术机构、科技企业都在打造自己的大模型,并且将其能力边界、技术路径进行了极大拓展。

 

有人认为,AI大模型的到来让这项技术完成了从实验室到工业化集成的转变。如果说过去的AI开发需要手工作坊模式的调参、调优、数据积累,那么大模型则预先集成了海量数据的训练效果,企业与科研用户拿到手中就是一个“智力”强大、效果客观的完成品。于是极大程度节省了重复开发成本,降低了开发门槛。

 

 

大模型的价值涌现出来,下一个问题随之诞生:打造大模型需要人工智能算力、网络、框架等一系列条件形成有效支撑,才能让大模型真正“大”起来。大模型能够持续发展的前提,是必须打造强壮的AI根技术,在框架、算力等层面满足大模型的“建造”需求。

 

不久之前,中科院自动化所发布了全球首个三模态大模型——紫东.太初。

 

而这项技术成果的背后,是中科院自动化所与华为携手,利用全场景AI框架MindSpore对大模型开发进行了一系列支撑。9月25日, 在华为全联接2021上,MindSpore中文名“昇思”发布,同时推出昇思1.5版本。这一版本强化全场景能力、原生支持大模型,并新增AI科学计算新范式,发布电磁仿真套件和分子模拟套件,促进AI应用于科学计算领域。

 

 

我们就借此机会,聊聊大模型如何从昇思1.5中汲取营养;持续打造大模型,需要开发框架带来怎样的根技术支持。

 

时代的召唤:

大模型推动AI之变

预训练大模型发展到今天,已经经历了三年多的时间。期间最具“出圈”效应的大模型,可能就要属2020年OpenAI发布的NLP大模型GPT-3。

 

GPT-3首次实现了千亿级数据参数,除了传统的NLP能力之外,还可以算术、编程、写小说、写论文摘要,一时之间成为舆论热点。GPT-3的出现,让各界看到了大模型的潜力, 也让中国开发自己的大模型成为了“时代的召唤”。

 

从产业价值上看,预训练大模型带来了一系列可能性,让产学研各界看到了由弱人工智能走向强人工智能;由重复开发、手工作坊式人工智能,走向工业化、集成化智能的全新路径。可以说,大模型是近两年AI持续变革的核心动力,也是AI走入千行百业、各学科领域的关键支柱。

 

 

于是我们可以看到,中国的科技企业、学术科研机构纷纷开始加码大模型,并且在不同路径上进行探索和尝试。比如说,Bert和GPT都是NLP领域的大模型,缺乏对图形图像数据与多模态数据的处理能力。因此,多模态大模型成为了重要的研究方向。集成语音、文本、图像、视频等各个模态信息的处理模式,也更加贴近人类感知,具有更高的社会价值。

 

对于产学各界来说,数据量大、训练效果好、网络拓扑结构紧凑,同时又容易获取的预训练大模型,都是未来学术研究、AI开发、产业升级的基础和关键。大模型将很有可能改变AI的研究范式,成为不同领域的共性基础平台。

 

中科院自动化所就瞄准这一方向,成功构建了视觉-文本-语音三模态预训练模型——紫东.太初。而在其背后,华为提供的昇思1.5框架的能力,成为了打造大模型的利剑。

 

驶向多模态:

紫东.太初的独特价值

破混沌,开新局,紫东.太初这个极具魄力与东方文化质感的名字属于全球首个三模态大模型(OPT-Omni-Perception pre Trainer)。它能够实现图文音语义的统一表达,将视觉、文本、语音三种模态统一起来,实现以文搜图,以图生音等跨模特理解与生成能力,这标志着预训练模型工作获得突破性进展。

 

目前阶段,产学研界最多的大模型就是NLP大模型,其次是CV大模型。而多模态大模型作为新生事物,基本也考虑的是两个模态之间的协同转化。比如图像与文本、视频与文本,并且能力更多是集中在生成或理解中的一项,很少能够兼顾。

 

 

紫东.太初为了解决这些问题,提出了视觉-文本-语音三模态预训练模型。通过将视觉、文本、语音不同模态数据各自编码器,映射到统一语义空间,然后通过多头自注意力机制(Multi-head Self-attention)学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示,再利用编码后的多模态特征,最终通过解码器分别生成文本、图像和语音。经过这样的对齐与转化,大模型可以更加关注图-文-音三模态数据之间的关联特性以及跨模态转换问题,对更广泛、更多样的下游任务提供模型基础支撑。最终,多模态大模型不仅可以实现跨模态理解,还能完成跨模态生成,极大程度提升了学习框架的灵活性,有效降低了多模态数据的收集与清洗成本。

 

由于三模态大模型非常接近人类的信息处理方式,其对信息数据有非常好的协同掌握能力,因此可以非常广泛地应用于产学各领域,孵化出更多新应用。紫东.太初目前已经具备全球领先的图文音跨模态理解与生成能力,可轻松完成智能问答、图片生成、视频理解与等任务,这些能力将在工业质检、影视创作、互联网推荐、智能驾驶等领域广泛应用。

 

而面向产业上游看,我们会发现紫东.太初的打造,得益于昇腾AI的产业底座。尤其是昇思对大模型的原生支持,让大模型具备了快速开发、精准训练的“开发之根”。

 

根强则AI强:

昇思支持大模型时代到来

在MindSpore 全新升级的1.5版本中,我们不仅见到了全新的中文名——昇思,更重要的是见到了昇思新版本对科学研究、AI基础开发的全新适配能力,展现了昇腾AI产业对新锐产学动向的洞察和满足。

 

在科研工作中,AI开发经常是一件成本巨大、容错率极低的工作。算力、数据、基础模型和开发套件都会成为科研工作中的AI开发难题。面对这些问题,昇思1.5不仅极大提升了对大模型的适配能力,还强化升级了科学计算引擎,全面加强了对学术界、工业界的AI开发支持。

 

在大模型支持方面,昇思1.5版本实现了原生支持大模型,能够在业界率先支持全自动并行AI处理。在大模型训练中,可以同时使用数据并行、算子级模型并行、Pipeline 模型并行、优化器模型并行、异构并行、重计算、高效内存复用多维度、全种类的分布式并行策略;并且原创集群拓扑感知的多维度自动混合并行,实现超大模型自动切分,显著提升集群加速能力;新的 DNN分布式并行编程范式,可以实现低代码算法切换,大幅节省开发时间。

 

 

面对结构复杂、训练开销巨大、训练时间漫长的多模态大模型,新的昇思特性可以极大提升训练加速能力,同时减少系统性能优化代价,降低代码开发工作力,从而综合性地减少调试与训练周期。

 

在这样的框架能力升级中,会有更多创新性强、训练数据规模大的预训练大模型在昇思的支撑下发展起来。昇思自然也就名副其实成为了大模型的“根技术”。

 

目前,基于昇思训练的大模型除了已经发布的全球首个中文预训练大模型鹏程.盘古、全球首个三模型预训练大模型紫东.太初,还有即将发布的智能遥感大模型、语音大模型等等,可以说昇思框架对大模型支持的能力是业界首屈一指的。

 

 

与此同时,昇思1.5还新增了对外开放机制等诸多新特性,尤其注重在科研创新和应用领域的支持。通过多尺度混合计算和高阶混合微分两大关键创新,将原有的 AI 计算引擎升级为 AI 与科学计算的统一引擎,实现融合的统一加速。在此基础上,未来昇思将面向 8 大科学计算场景推出 MindScience 系列套件。科学计算套件包含业界领先的数据集、基础模型、预置高精度模型和前后处理工具,可以加速科学行业应用开发。

 

 

昇思将持续加强对科研领域AI开发的支持,尤其是为大模型这种“国之重器”的训练底座。同时,昇腾社区和昇思MindSpore社区也会加强对大模型开源开放的支持。目前,昇思社区下载量已经突破60万,社区贡献者超过3500人。昇思正在与产学研各界一同推进开源开放,让大模型真正成为科学之基、产业之本。

 

预训练大模型正在推动一场AI新变革。而在关注这场变革之前,我们更应该关注根技术、根平台的打造与建设。

 

坚实的产业基础之上,才能产学各界万花盛放。AI大模型之变,应该有强壮的根。


关键字:AI  谷歌  中科院  电磁 编辑:什么鱼 引用地址:http://news.eeworld.com.cn/qrs/ic549412.html

上一篇:逆境中实现突破,80年代安富利重新定义分销行业
下一篇:建立内外价值体系,安富利布局未来重要领域

推荐阅读

NVIDIA 与合作伙伴在 MLPerf 中展示领先的 AI 性能和通用性
NVIDIA AI 仍是唯一能够运行 MLPerf行业基准测试中所有测试的平台, A100 GPU自发布以来连续两年一直保持着获胜次数最多的纪录。根据今天发布的 MLPerf 基准测试结果, NVIDIA 及其合作伙伴占了所有参赛生态伙伴的 90%,并且继续提供了最佳的整体 AI 训练性能和提交了最多的测试项。NVIDIA AI 平台覆盖了 MLPerf 训练 2.0 版本中的所有八项基准测试,突显了其领先的通用性。除 NVIDIA 之外,无其它加速器运行过所有基准测试,这些基准测试代表了流行的 AI 用例,包括语音识别、自然语言处理、推荐系统、目标检测、图像分类等,而 NVIDIA 自 2018 年 12 月向作为行业标准 AI
发表于 2022-06-30
NVIDIA 与合作伙伴在 MLPerf 中展示领先的 <font color='red'>AI</font> 性能和通用性
“热启动”让效率加倍,DSO.ai持续引领AI设计芯片新纪元
1956年人工智能(AI)概念被提出时,即使是想象力最丰富的预言家,应该也难以预料到2022年的AI,早已打败了全球最顶级的围棋选手,能够预测天气,诊疗疾病,甚至,AI还在改变被誉为“工业粮食”的半导体行业。随着半导体制造工艺的持续演进,采用先进制程的芯片,单颗芯片集成的晶体管数量高达数百亿个,系统愈加复杂,设计挑战越来越大。但与此同时,终端应用的软件和算法加速迭代,以月或者年为周期更新的芯片越来越难以满足终端需求,芯片设计的周期亟需缩短。EDA工具与AI技术的结合,不仅能设计出PPA(性能、功耗、面积)更好的芯片,还能显著缩短芯片设计周期。在达成提供更好、更快、更便宜的芯片愿景的同时,也将大幅降低芯片设计的门槛,让更多人和企业能够
发表于 2022-06-28
“热启动”让效率加倍,DSO.<font color='red'>ai</font>持续引领<font color='red'>AI</font>设计芯片新纪元
深耕开发者生态,加速AI产业创新发展
英特尔携众多合作伙伴共聚2022 OpenVINO™ DevCon2022年6月27日,上海——近日,由英特尔举办的2022 OpenVINO™ DevCon•中国站以线上峰会的形式成功举办,众多来自各行各业的领先企业汇聚于此。在这场全球性的OpenVINO™开发者盛会上,OpenVINO™核心技术专家分享了最新产品信息和技术演示,多位大咖还进行了行业洞见、核心技术、案例展示等多维度的分享与交流,以帮助开发者在提升技术水平的同时,拓宽职业视野、了解行业趋势。本次会议还设有“开发者生态AMA(Ask Me Anything)”环节,支持开发者和专业技术大咖进行深入交流、积极互动,为AI从业者保驾护航。OpenVINO™ DevCon是
发表于 2022-06-27
深耕开发者生态,加速<font color='red'>AI</font>产业创新发展
汽车半导体巨头的AI野心
汽车成为半导体产业的下一个增长点,可国内厂商要走的路还很远。从2021年开始汽车缺芯持续了一年后,似乎依旧没有改观。在整个芯片行业猜测缺芯和产能过剩的真实情况时,汽车芯片的供应情况一直稳定的缺。在此趋势下,“出货”成为了汽车厂们的第一竞争力。缺芯停产成为困扰国内外汽车公司的共同难题,6月初,Stellantis的三家工厂就因为芯片短缺问题停产,受影响的车型包括Jeep和菲亚特等,丰田汽周二表示,由于半导体短缺,6月份全球出货量计划削减约10万辆至约85万辆。国内方面,4月蔚来称受供应链影响,暂时停产;6月小鹏汽车董事长也在微博上高调求芯。困在缺芯泥淖之中,各大车厂也似乎预计半导体短缺将延续到2022年年底。在这样的市场背景之下,持续
发表于 2022-06-27
贸泽开售Seeed Studio reComputer Jetson开发套件助力AI应用开发
2022年6月27日 – 专注于引入新品的全球半导体和电子元器件授权分销商贸泽电子 (Mouser Electronics) 即日起备货Seeed Studio的reComputer Jetson 20-1 Xavier NX和reComputer Jetson 10-1 Nano 开发套件。此开发套件基于先进的NVIDIA内核,支持在无人机、农业、野生动物保护、智能城市、工业物联网 (IIoT) 和工业4.0等应用领域快速开发人工智能 (AI) 解决方案。贸泽供应的Seeed Studio reComputer Jetson 20-1 Xavier NX开发套件配备NVIDIA的Jetson Xavier NX 高级AI嵌入式系统
发表于 2022-06-27
贸泽开售Seeed Studio reComputer Jetson开发套件助力<font color='red'>AI</font>应用开发
意法半导体新惯性传感器模块可实现在传感器内训练AI
意法半导体新惯性传感器模块可实现在传感器内训练AI片上信号处理内核,可用意法半导体的 NanoEdge AI Studio编程,开发机器学习应用的理想选择2022年6月27日,中国 - 服务多重电子应用领域、全球排名前列的半导体公司意法半导体(STMicroelectronics,简称ST;)推出了内置智能传感器处理单元 (ISPU) 的新惯性传感器,推动onlife (一直在线)生活时代的到来,人们与经过训练的智能设备互动,智能技术从网络边缘移向深度边缘设备。ISM330ISN常开 (always-on) 6 轴惯性测量单元 (IMU)传感器内部嵌入智能技术,就尺寸和功耗而言,其测量性能和精准度堪称业界一流。意法半导体的新型 IM
发表于 2022-06-27

推荐帖子

MicroPython标准库 ure
ure–正则表达式 执行正则表达式操作。正则表达式支持CPython子集re模块(实际是POSIX扩展正则表达式的子集)。 支持操作符: '.':匹配任意字符'[]':匹配字符集合,支持单个字符和一个范围。'^' '$' '?' '*' '+' '??' '*?' '+?':重复计数({m,n}),不支持高级的断言、命名组等。 函数 ure.compile(regex) 编译正则表达式,返回regex对象 ure.match(reg
dcexpert MicroPython开源版块
【晒样片】+免费申请TI 3样片
10月的时候就有TI发到我126邮箱一封邮件,说需要绑定学校的edu邮箱才能申请样片 当时想可能用得到,就更新了我的TI账户,没想过申请样片。知道最近才发现了这个活动(活动入口http://bbs.eeworld.com.cn/forum....C%D3%AE%BA%C3%C0%F1)想起了可以申请几片试试。 具体的申请流程已经有人发帖详细说明了,还不会的童鞋们可以去看看哦(http://bbs.eeworld.com.cn/forum....9%D1%F9%C6%AC%A1%BF)
AzureStar TI技术论坛
中断驱动多任务--- 单片机(MCU) 下的一种软件设计结构
mcu由于内部资源的限制,软件设计有其特殊性,程序一般没有复杂的算法以及数据结构,代码量也不大,通常不会使用OS(OperatingSystem),因为对于一个只有若干KROM,一百多byteRAM的mcu来说,一个简单OS也会吃掉大部分的资源。 对于无os的系统,流行的设计是主程序(主循环)+(定时)中断,这种结构虽然符合自然想法,不过却有很多不利之处,首先是中断可以在主程序的任何地方发生,随意打断主程序。其次主程序与中断之间的耦合性(关联度)较大,这种做
IceAge1 单片机
如何在桌面显示半透明镂空png图片?
如题。 有一些今日插件,可以在桌面半透明显示png图片,比如htc的圆角矩形图标背景。但是在尝试做出同样的效果来,发现很难实现。 用TransparentBlt函数实现打出圆角矩形图片,但是无法半透明,用AlphaBlend实现了半透明,但是需要镂空的地方仍然显示。先TransparentBlt后AlphaBlend的结果是参数错误,TransparentBlt得到的目标HDC无法在AlphaBlend里使用。 请问也没有其他方法可以做到半透明显示一个不规则图片的效果呢?如何在桌面显示半
xinhun 嵌入式系统
2833xAdcSoc编程实例
//########################################################################### //Description //!\addtogroupf2833x_example_list //!<h1>ADCStartofConversion(adc_soc)</h1> //! //!ThisADCexampleusesePWM1togenerateaperiod
Aguilera DSP 与 ARM 处理器
imx8-cb300核心板
imx8-cb300核心板
明远智睿01 ARM技术
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2022 EEWORLD.com.cn, Inc. All rights reserved