雷锋网按:2018全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了宝安区政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,旨在打造国内人工智能领域最具实力的跨界交流合作平台。
7月1日下午的AI芯片专场大咖云集,圆桌讨论环节,深圳鯤云信息科技有限公司创始人兼CEO牛昕宇、天数智芯创始人兼CEO李云鹏、NovuMind中国区总裁周斌、AVSdsp CEO沈联杰四位来自AI芯片领域的重磅嘉宾,在华登国际投资总监苏东的主持下,就“中国芯的新机会:AI芯片如何实现弯道超车”这一话题展开交流。
圆桌讨论结束后,雷锋网就相关问题对NovuMind中国区总裁周斌进行采访。
算力是一切算法的基础
在圆桌讨论中周斌曾提到,大概3~5年后,在有限场景、受限场景的自动驾驶会成为比较现实的事情。
然而据雷锋网观察,眼下有一些面向自动驾驶领域的AI芯片,其规格往往集中在功耗15~30瓦、算力30~40Tops这个区间内,号称可实现L4级自动驾驶能力。并且在雷锋网的观察中,某些AI芯片公司在介绍其芯片性能时,只说每秒能处理多少帧画面、每幅画面包括多少对象,而对底层算力指标避而不谈。
对于这种行为,周斌认为“就像某人只说自己能举重100次一样无聊,脱离杠铃重量怎么能看出实际能力?就算要宣传图片和对象的处理速度,也要讲清画面分辨率、视角大小、识别距离、对象尺寸等相关参数,要么就老老实实亮出实际的算力有多少。”他表示,40Tops只能胜任L2.X级辅助驾驶(ADAS)系统,想实现L3.X级自动驾驶都是不够的。
从雷锋网了解的信息来看,L4级自动驾驶要求平均每10万英里才需要一次人工干预,目前世界上还没有任何自动驾驶系统能达到这个指标,即便目前表现最好的谷歌Waymo也只做到了平均5000英里一次人工干预,而特斯拉Autopilot在官方定义中只是L2.X级。
周斌根据目前的情况推算,L3.X级自动驾驶大约需要80Tops的算力,而L4级自动驾驶的门槛至少有100~200Tops之高。在NVIDIA的路线图中,甚至使用了一套包含两颗GV100 GPU、算力320Tops、功耗高达500瓦的平台进行L4级自动驾驶的研发,高级别自动驾驶所需的算力指标之高可见一斑。
他表示,算力是支撑一切算法的硬指标,没有任何捷径可走。即便算法再怎么神奇,40Tops算力下所能做的事也是有上限的,“用十分之一功耗实现十倍性能”完全是天方夜谭。
如何与CUDA同台
NVIDIA自2006年推出G80架构以来,一直在不遗余力的推广其CUDA通用计算平台。时至今日CUDA已经非常成熟,形成了强大的生态系统,这也为NVIDIA扩展其它基于GPU的事业提供了先天便利。事实上,在AI大潮来临后,NVIDIA确实在AI算法训练上获得了很大优势。
NVIDIA的强大之处,身为中国唯一NVIDIA CUDA Fellow及NVIDIA DLI认证讲师的周斌再清楚不过了。但他却做起了反向思考:CUDA生态过去的强大,在面对AI运算的新任务时,是否能为其创造不可逾越的壁垒?
周斌认为答案是未必。在前不久的CCF-GAIR峰会上他曾讲到,他亲历了深度学习的风口过程,在2008年利用CUDA做通用计算时就开始用一些不同的处理器架构来解决新的问题。那时他发现,新的深度学习架构对于新的数据模式、新的数据结构以及数据量,对GPU体系结构产生了非常大的挑战。
AI芯片是处理AI任务的,任务在不断的变化,其变化本质、数学模型是什么,哪些是变的、哪些是不变的,这是任何做AI芯片的公司必须首先认可领悟和理解的。芯片中哪些可以固定下来。卷积层是否存在?深度网络的主流是什么,是CNN还是RNN?下一代Sparking能否用起来?只需要关注深度学习最核心、最本质的地方,剩下的都可以不管。
周斌称,NovuMind并没有发明新的芯片模式,而是在GPU的基础上去掉了所有和深度学习无关的单元。这样的设计既可以让芯片高效进行深度学习计算,又避免了直接将算法固化成ASIC芯片应用范围狭窄的问题。
脱离架构研发的“超车”都是幻想
全美达(Transmeta)Crusoe、Intel安腾(Itanium)、龙芯。
这些处理器的名字看起来毫不相干,之所以列出来,是因为它们之间有一个共同点:本身不是基于X86指令集,但可以通过Emulation技术兼容X86代码。
近来,随着“弯道超车”的声浪越来越高,又有人开始鼓吹Emulation技术,认为这样可以规避处理器架构方面的弱点,只需设计一个精简且高效的计算内核,然后套上Emulation层不就计划通了?
然而对于这种言论,周斌的看法非常简单:“这一定是行不通的”。他表示,全美达Crusoe、Intel安腾和龙芯,在商业上都失败了。这些使用了Emulation技术实现X86兼容的处理器,执行X86代码时的效率都是极其低效的。
以Intel安腾处理器为例,其内核结构为VLIW超长指令字体系,在使用Intel御用Emulation层的情况下,运行X86代码的效率也不过50%。即便是目前基于骁龙835/845平台的Win10 PC,也依然没能改变效率低下的老问题。
“芯片是个非常讲究经验积累和传承的领域,架构设计不是一天两天的问题。在大型应用领域,必须要在架构设计上下功夫。”周斌对雷锋网说到,“现在鼓吹Emulation技术的人,都是想在架构研发上偷懒的人,想靠这个实现‘超车’纯属幻想。”
回归价值投资的本质
很多人都听过“当风很强的时候,连火鸡都能飞起来”这句洗脑名言,而在AI这个风口下,也的确有一些公司或团体,仅凭一句AI、一个口号就能拿到大笔融资。
作为旁观者,我们不免担心,在浮躁的资本市场中,这些滥竽充数者分流掉的资源会对那些务实的团队造成怎样的影响?
在周斌看来,投资是一个优化资源配置的过程,虽然在风口到来时,市场上不可避免的出现了许多投资泡沫,但所有项目都必须在市场上证明其价值,才能获得成功。一些跟风的投资人,资金投到垃圾项目上,他们损失的将是真金白银。
他认为,投融资应该是一个双向选择的过程,不管是市场成长期还是洗牌期,都是真正的大浪淘沙,把真正有价值、有核心技术、有成长性、有未来的公司选出来,资源会向这样的公司聚集。“炒快钱的创业公司和投资人一定会被市场淘汰,只有真正能够发觉价值并与公司互相认可的投资人,才能为公司带来生命力。”
现在随便弄几个人说句AI、喊个口号就能拿到投资的事不存在了,在团队和市场层面上,有扎实内容、能赚钱的公司反而成为市场的香饽饽,这个洗牌期会逼着洗牌人看清楚这家公司是否有价值。投资人们开始认认真真的看技术,他们关注处理器内核、做IP竞调、做专利竞调,这个趋势非常喜人,投资将回归到价值投资的本质,通过资本市场的力量促成技术到市场的转化,从而共享收益。