芯片是战略要地。目前GPU芯片在深度神经网络训练领域获得大范围的应用,但受制于功耗、应用优化性等方面的限制,仍有众多的巨头和初创公司在该领域积极探索,英特尔2016年发布Nervana AI处理器,可加速各类神经网络。谷歌2016年也发布了自己的ASIC芯片TPU,用于加速深度神经网络,微软、AMD、百度等也相继加入战局。
寒武纪研发了国际首个深度学习专用处理器芯片(NPU),目前其IP指令集,已扩大范围授权集成到手机、安防、可穿戴设备等终端芯片中,2016年就已拿到1个亿元订单。
执行董事罗韬26日表示,目前寒武纪深度学习处理器,若以阶段性论,还处于相当于“ARM”的授权阶段,未来一年内,将推出芯片问世,并拟与台积电先进工艺制程展开合作。
寒武纪之所以想要开发一款专用的深度学习处理器,因为有必要有专门的深度学习处理处,来提升效能与克服降低功耗。通用芯片与专用芯片相比,就像是一把万能的瑞士军刀与菜刀之比,想要切菜得好,必须有专用的菜刀堪用。而深度学习是处理智能应用迄今最好的方法。
罗韬表示,AI已经在很多领域超越了人脑。但是传统的CPU/GPU处理深度学习效率低下,他举例,AlphaGo使用上千个CPU和数百个GPU,下一盘棋的电费就高达3000美元,相当耗能。
而寒武纪的目标,据称,是要让1瓦以内功耗的摄像头、手机、甚至手表都能和AlphaGo一样“聪明”。
光靠NPU指令集就已赚钱
他也分享目前寒武纪的近況。就在2016年国际计算机体系结构年会中,约有1/6的论文都引用寒武纪开展神经网络处理器研究。
目前寒武纪设立了三条产品线:首先是智能终端处理器IP授权,智能IP指令集可授权集成到手机、安防、可穿戴设备等终端芯片中,客户包括国内顶尖SoC厂商,目前已经开始投入市场。而2016年全年就已拿到1个亿元订单。这也使得寒武纪研发了国际首个深度学习专用处理器芯片,于2016年第一年成立,就实现盈利。
其次,在智能云服务器芯片领域:作为PCIE加速卡插在云服务器上,客户主要是国内的知名服务器厂商。
另外,家用智能服务机器人芯片:从智能玩具、智能助手入手,使服务机器人独立具备看听说的能力。客户是各类下游机器人厂商,产品的推出将比智能云服务器芯片更晚一些。
日前中科院还注资1000万元,这1000万元专项资金一方面用于人工智能芯片的基础性研究,探索下一代人工智能芯片的架构、算法以及在一些新型场景(如AR/VR)中的应用开发方法。
下一阶段重点 流片商用问世
据指出,DianNao是寒武纪系列的第一个原型处理器结构,平均性能超过主流CPU核的100倍,但面积和功耗仅为1/10,效能提升可达三个数量级。
寒武纪处理器能直接面对大规模神经元和突触处理,一条指令完成一组神经元处理,相比传统执行x86指令集的芯片,有数量级的性能提升,未来在云服务器和智能终端上的图像识别、语音识别、人脸识别等方面有着较广应用前景。
而迈入下一个阶段,寒武纪从IP指令集授权,到推出商用芯片问世,预料是目前紧锣密鼓筹备的重点。
相关人士也指出,寒武纪目前锁定与台积电最先进的工艺制程合作,其中对其量产成熟的14纳米工艺很有兴趣。预期最快一年后流片。
行业人士还指出,国内现在高端芯片设计领域的实力已经提升,但是国内晶圆代工厂的工艺制程还没跟上节奏,包括展讯14纳米找英特尔代工、兆芯14纳米CPU也都选择与台积电合作。
相关人士表示,目前看国内芯片厂的技术节点仍落于国外两到三个世代,在28纳米工艺制程还未站稳脚跟的当下,在国内选择综合考量上,高端芯片会多倾向以选择台积电、GLOBALFOUNDRIES为主,而台积电则又较具两岸优势。
关键字:寒武纪 指令集 NPU
编辑:张依敏 引用地址:指令集就能赚钱 寒武纪NPU拟流片商用
推荐阅读最新更新时间:2023-10-12 23:42
PIC单片机快速入门
PIC16F616是一款14引脚、8位的CMOS单片机.采用精简指令集,仅有35条指令,由于采用了数据总线和指令总线分离的哈佛总线结构,使得除少量指令不是单周期之外,大部分的指令都是单周期指令.这样有利于提高单片机的运行速度和执行效率.
PIC16F616这款单片机供电电压可以在2V到5.5V之间,内部集成了一个RC振荡器,频率可以配置成8MHZ或者4MHZ,也可以用外部晶振提供时钟.内部集成有AD转换、比较器等硬件模块,还具有上电复位、欠压复位、看门狗、代码保护等功能.三个定时器、PWM发生器等可以由用户编程.下面我来一一介绍关于PIC单片机的这些模块和功能.
1.存储器
PIC16F616分为
[单片机]
寒武纪CEO陈天石:掌握AI芯片指令集是根本之策
寒武纪创始人兼CEO陈天石近日表示,大陆想要崛起就要稳稳站住陆产的人工智能(AI)芯片指令集。AI是大陆崛起的一个好机会。 近日AI芯片新创企业寒武纪才刚宣布完成A轮融资,融资总额1亿美元,融资方的阵容包括领投方国投创业(国投集团子公司)、阿里巴巴、联想、国科投资、中科图灵,原pre-A轮投资方,元禾原点创投、涌铧投资也继续跟投。 寒武纪AI指令集已跨入手机 DIGITIMES于4月独家披露寒武纪研发了国际首个深度学习专用处理器芯片(NPU),其IP指令集扩大范围授权集成到手机、安防、穿戴式设备等终端芯片中,2016年就约拿到人民币1亿元的订单。同时,业内也传出,华为海思的麒麟970芯片也将搭载寒武纪的AI芯片指令集,
[半导体设计/制造]
人工智能风口下的TPU/NPU/CPU/GPU
人工智能将推动新一轮计算革命,深度学习需要海量数据并行运算,传统计算架构无法支撑深度学习的大规模并行计算需求。因此,深度学习需要更适应此类算法的新的底层硬件来加速计算过程。 芯片也为响应人工智能和深度学习的需要,在速度和低能耗方面被提出了更高的要求,目前使用的 GPU、FPGA 均非人工智能定制芯片,天然存在局限性,除具有最明显的优势GPU外,也有不少典型人工智能专用芯片出现。 一、谷歌——TPU(Tensor Processing Unit)即谷歌的张量处理器 TPU是一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。大致上,相对于现在的处理器有7年的领先优势
[嵌入式]
ARM 汇编的必知必会
无论是体系结构还是指令集,大家或多或少都应该对X86汇编有些了解,而对于嵌入式领域已被广泛采用的ARM 处理器,了解的可能并不多。如果你有兴趣从事嵌入式方面的开发,那么了解一些RISC 体系结构和ARM汇编的知识还是有必要的。这里,我们找出了这两种体系结构最明显的不同之处,并对此进行介绍,让大家对于RISC体系结构的汇编有一个基本的了解。首先,我们就来看一看基于RISC的ARM的体系结构。 基于RISC 的ARM CPU ARM是一种RISC体系结构的处理器芯片。和传统的CISC体系结构不同,RISC 有以下的几个特点: ◆ 简洁的指令集——为了保证CPU可以在高时钟频率下单周期执行指令,RISC指令集只提供很有限的操作(例如
[单片机]
ARM微处理器的指令集概述(五)—— LDR和ADR分析
ADR的定义为:小范围的地址读取伪指令,ADR指令将基于PC相对偏移的地址值读取到寄存器中,在编译源程序时ADR伪指令被编译器 替换成一条合适的指令。通常,编译器用一条ADD指令或SUB指令来实现该ADR伪指令的功能,若不能用一条指令实现,刚产生错误。 在如上的定义中,有两个关键信息:⑴将基于PC相对偏移的地址值读取到寄存器中;⑵被编译器替换成一条合适的指令。ADR指令只能将地址值读取到寄存器中,而不能是其它的立即数,并用只能用一条指令。 如果在汇编程序中使用ADR R1,ResetHandel语句,其中ResetHandel是汇编程序中的一个标签,此条伪指令的作用是把ResetHandel标签所在的指令地址 读取到寄存器
[单片机]
中国CPU指令集过于庞杂 不利于生态建设
文章首发于观察者网 近年来,随着龙芯、申威自主CPU在性能和应用上不断取得突破,原本对中国高度技术封锁的欧美科技公司纷纷到中国寻找代理人,Intel、AMD、IBM、ARM、高通相继在中国成立合资公司,或寻找技术合作伙伴。这其中就涉及“指令集”,它是存储在CPU内部,对CPU运算进行指导和优化的硬程序。 与此同时,中国国产芯片集齐了SW64、LoongISA/MIPS、X86、Power、ARM,加上之前一些单位的一些产品和学术研究,中国的CPU的指令集还要加上IA-64、Sparc、RISC-V,这对中国CPU的发展非常不利。 中国CPU指令集处于群雄割据状态 目前,中国CPU发展可以分为两条路线。 一条是自主路线,以龙芯与申威
[嵌入式]
ARM指令集——条件执行、内存操作指令、跳转指令
ARM 汇编指令条件执行 在ARM模式下,任何一条数据处理指令可以选择是否根据操作的结果来更新CPSR寄存器中的ALU状态标志位。在数据处理指令中使用S后缀来实现该功能。 不要在CMP,CMN,TST或者TEQ指令中使用S后缀。这些比较指令总是会更新标志位。 在Thumb模式下,所有数据处理指令都更新CPSR中的标志位。有一个例外就是:当一个或更多个高寄存器被用在MOV和ADD指令时,此时MOV和ADD不能更新状态标志. 几乎所有的ARM指令都可以根据CPSR中的ALU状态标志位来条件执行。参见表2-1条件执行后缀表。 在ARM模式下,你可以: 根据数据操作的结果更新CPSR中的ALU状态标志; 执行其他几
[单片机]
ARM详细指令集
算术和逻辑指令 ADC : 带进位的加法 (Addition with Carry) ADC{条件}{S} dest , op 1 , op 2 dest = op_1 + op_2 + carry ADC 将把两个操作数加起来,并把结果放置到目的寄存器中。它使用一个进位标志位,这样就可以做比 32 位大的加法。下列例子将加两个 128 位的数。 128 位结果: 寄存器 0、1、2、和 3 第一个 128 位数: 寄存器 4、5、6、和 7 第二个 128 位数: 寄存器 8、9、10、和 11。 ADDS R0, R4, R8 ; 加低端的字 ADCS R1, R5, R9
[单片机]