自拍美图、人脸识别、无人驾驶……很难说计算机视觉还高冷地无人知晓,其实它早已潜入日常生活中。40年前,这项与机器人本为一家的技术,一度因识别精准率过低被嫌弃,紧追猛赶后,如今终于回到与机器人并驾齐驱的高尖水平。
最新的计算机视觉进展到什么程度?
2015年12月13日,乌镇世界互联网大会举办前夕,第14届国际计算机视觉大会(ICCV)在南美智利举办,这场2年一届的顶尖盛会,展示了这一领域的最近突破。本届ICCV被微软亚洲研究院抢走了头条。他们的视觉计算组研发出全新深度学习方法,具备152层类神经网络,比原先多出132层,即用同样的百万比资料就可以训练出深层的类神经网络。这些最先进的深度学习类神经网路,能将照片中的车、房、人、物……等等一千类物件精准地识别出来,平均错误率从几年前的动辄50%,到今年已经降到3%,已可接入实际应用。
华人自古以来的图像情节
ICCV头条中的“亚洲”字眼非常醒目,实际上微软这项里程碑式成果的发明者全是中国人。如果这还无法证明计算机视觉的世界版图正向亚洲迁移,来看下一项证据。
ICCV通常在北美、欧洲等技术发达的国家举行,今年的大会赞助商名单中竟出现了不少中国企业身影,商汤科技、百度、Viscovery创意引晴,汉字在赞助榜上快占据半壁江山。除了在世界顶尖国际会议上越发活跃之外,中国的计算机视觉学者也藉由区域型会议如ACCV,以及国内计算视觉大会CCCV、RACV,凝聚了大量的政、商、媒体、学界的焦点与资源。
过去十年,中国人在计算机领域的分量和影响力逐年增加,相关学者越来越多,我在美国读博士班的时候,教授就很好奇,“为什么你们华人对计算机视觉特别感兴趣?”我回答说,“因为我们的文字就是从象形文字开始,本身从图像引申来的,看文字就像在看图像一样。”
中国很多面孔虽没有去国外念过博士,但却在这个领域越来越有影响力。微软亚洲研究院的首席研究员孙剑博士,正是此类人物。近年来藉由“阿里云”的“天池”平台举办的各项竞赛,包括刚刚举办完的“淘宝穿衣搭配算法竞赛”与“阿里大规模图像搜索大赛”,也都帮助中国在图像识别研究走在于世界的最前面。
五年前,中国计算机视觉的市场还小于美国,现在,两国做计算机视觉的新创公司数量已旗鼓相当。如果碰上合适的具体市场应用,过几年很有可能超越美国,且成为赢家通吃的局面,就像以色列的MobileEye独占全球的“车辆撞击预警系统”一样。
中国独特的市场需求:视频+广告
计算机视觉虽未迎来里程碑式的巨大风口,但一个接一个的小风口从未断过。90年代人脸侦测成熟之后,现在所有的相机都可以框出人脸。下一项成熟的技术,人脸识别,还可以精准识别谁是谁。现在从脸书上传照片,会自动匹配好所有好友的标签,非常方便。在安防领域方面,全球有几十家数得上的智能监视系统厂商,可以轻松监测画面中的人物移动。
目前大家抢着要解决的,是如何提升影像中物件识别的准确度。一旦可以轻易知道画面中存在的人物、物件、场景,就能用增强现实做游戏(AR)、监测自动驾驶的环境等等。中国的巨头BAT都在做计算机视觉应用。阿里举办商品识别大赛,第一年就推出了一百万商品做识别,但像同款女装识别还比较困难,受材质、穿着者身材影响,没法直接商品化应用。腾讯有自己的视频服务,有自建团队做视频中商品识别、广告关联,从头吃到尾。百度有无人驾驶、云平台、图像搜索等。
众多可商业化应用中,“视频内容关联广告”是中国独创于世界的特色市场。这块技术比YouTube早跑了两年,不同于YouTube一家独大,中国至少有十家企业竞争,都是赔钱在抢市场。阿里和优酷、腾讯、爱奇艺、搜狐等视频大佬,都开始钻研基于视频内容识别的关联广告,即边看边购物体验。
现在看视频时接触的各类明星同款商品推送,已经是深浅不一的机器视觉技术。观赏综艺节目时,隐藏在屏幕背后的机器脑“看到”你喜爱的明星和商品,在网络海洋中帮你挖出他的八卦,同款鞋子、手机。这就是智能化的视频内容辨识,用机器取代人眼、人脑,识别甚至肉眼无法认知的物件纹路、形状、商标,用大数据技术做到更相关的商品、知识信息匹配推送。虽然各公司还在摸着石头过河,但这块应用做好则用户与商家皆大欢喜。
机器视觉的未来
计算机视觉的未来何去何从?这块领域的大佬、加州伯克利大学的Jitendra Malik教授,十年前就斗胆预测了未来十年计算机视觉的重要发展,如今验证了他的大部分预测都是对的。在今年的ICCV大会上,Malik教授又做了十大方向的预测,结合场景的语义分析就是其中重要一块。未来物件识别还会持续推进,朝画面中所带讯息、不同场景下的情感和意义的识别发展。也许未来,机器视觉就成读心专家,准备好迎接这位朋友了吗?