专访IROS 17大会主席张宏:机器人已到突破的拐点 | IROS 2017
IROS, 全称为IEEE/RSJ International Conference on Intelligent Robots and Systems,即智能机器人与系统国际学术会议,是机器人领域全球规模最大、最具影响力的学术会议之一。
大会期间,雷锋网有幸对IROS 2017的大会主席、加拿大阿尔伯塔大学张宏教授进行了采访。
张宏教授为雷锋网介绍了IROS 30年来的发展历程。同时张宏教授认为,在需求的推动下,近几年机器人技术迅猛发展,拐点已经到来,将加速走入我们的日常生活。IROS一如既往地为机器人领域各界人士提供交流、合作和共享的国际化平台,推动人工智能与机器人的结合和发展。
张宏教授1982年在美国东北大学电子工程系以杰出成绩获得学士学位,1986年获得美国普渡大学电子及计算机工程系博士学位。现任阿尔伯塔大学计算机系终身教授,广东工业大学杰出人才特聘教授(兼职),是加拿大工程院院士和IEEE Fellow。
张宏教授曾在多个国际学术组织中担任重要职务,例如IEEE Trans. on Systems, Man, and Cybernetics副主编及国际期刊Int. J. of Humanoid Robotics编委会成员;组织过多次国际学术会议,并多次担任大会主席。
迄今为止,张教授已在国际顶级期刊及重要会议上发表了200余篇文章,涉及机器人操作、多智能系统、视觉检测和视觉导航等方面。目前的研究领域包括机器人学、计算机视觉、图像处理以及智能系统等。
(图为IROS '17大会主席,加拿大阿尔伯塔大学张宏教授主持大会)
雷锋网:今年5月我们有同事刚刚去参加过ICRA。ICRA和IROS是机器人方面最重要的两个会议,它们在定位上有什么不一样?
张宏:两个会的侧重点稍微有些不一样。ICRA的关键字是Robotics & Automation,即机器人和自动化,而自动化技术和系统并不一定涉及机器人;IROS的关键字是Intelligent Robots,即智能机器人。换而言之,ICRA关注的范畴更广,而IROS则更关注机器人和系统的智能。
随着机器人概念走热,全世界研究机器人学的圈子已经很大并且越来越大, 一个会并不能满足学术界和产业界的所有需求。IROS和ICRA的组织者均来自同一个协会(IEEE机器人及自动化协会),会议组织和协调方面也很注意,两个会差不多错开半年(ICRA一般在4、5月,IROS一般在9、10月),为机器人专家和学者提供更多交流和共享成果的机会。
雷锋网:今年 IROS 的主题是“Friendly People, Friendly Robots”,这个主题也体现了您讲的智能化的特色吧?这个主题是如何定下来的?大会当中如何体现这个主题?
张宏:我时常开玩笑说,加拿大给别人的印象是很友好的(“Friendly”),而今年我们在加拿大举办这个盛会,所以我们会强调“友好”。实际上,现在机器人已经发展到了一个拐点,过去几年机器人研究突飞猛进,机器人理念已经融入到我们生活当中了,已经不是仅停留在工厂里,比如说,清洁机器人,陪护机器人,自动驾驶等。我们说无人驾驶的车,其实也是广义的机器人。
这些新技术,若想能够被人们接受和推广,必须以一个友好的状态呈现在我们面前。实际上,我们现在的研究工作更多地关注机器人的基本共性技术,旨在使得这些机器人能够在人类的生活和生产空间里和人共存、与人协作(国内“人机共融”的概念),比如说组装线,既有机器人也有人,机器人如果不友好就很难被人接受。在家庭里更是这样,如果把家庭服务机器人做得像一个有侵犯性的机器,那谁也不能接受,更不想使用。
近年来比较热门的研究方向和友好机器人是密切相关的,例如软体机器人。我们看工厂里的工业机器人都是硬邦邦、冷冰冰的,可是如果机器人能像人一样友好你就不会怕它,不会感觉机器又硬又冷。我们讲的人机交互,是一个人和机器人互动的世界,不要把人和机器人对立起来,而是说人和机器人合作一起来解决生活和生产中的难题。而且是人(“People”)需要起主导作用,在前,机器人(“Robots”)起附属作用,在后。 我们把“Friendly People,Friendly Robots ”作为大会主题,含义很广,最终是想让我们的研究工作有一个良好的出发点和目标。
雷锋网:说到IROS的定位方面,您本身是做SLAM的,属于CV(Computer Vision,计算机视觉)的范畴,今年大会也邀请了李飞飞教授做大会报告,而在Guide2Research的排名中,IROS是CV领域排名第四的学术会议,IROS是不是对CV特别重视?
张宏:我觉得计算机视觉的发展是需求驱动的结果。计算机视觉在10年前就开始成熟了,对于机器人来说显然也是非常实用且迫切的技术。我们人感知我们的世界很大程度上是依赖于我们的视觉,要发展智能机器人也有同样的考虑。视觉和机器人结合是一个非常自然的想法,也就是怎样通过对视觉信息的分析对环境进行感知、判断并做出决策。
十几年前条件不成熟,很多技术都想做但做起来很麻烦。首先是算法上,比如最简单的边缘检测,十年前基本要自己写程序,现在则有很多开源软件包,大大简化编程的过程,大家都可以用;其次在计算量方面,十年前有些技术算法道理简单,但计算速度比较慢,而机器人的一个控制循环可能需要在几毫秒到十几毫秒之内做出决策,对计算实时性要求高。现在这些障碍一个个被克服了,所以才使得计算机视觉在机器人上的应用广泛普及。
有一个很有意思的现象,我三十年前做机器人研究的时候并没有研究过视觉,只是从十几年前开始进入到计算机视觉领域。而且我周围有大量这样的人,他们慢慢发现机器视觉、图像处理越来越有用了,将机械结构、运动控制等技术和视觉技术有机结合。另外,我们机器人研究有非常具体的问题,可以告诉视觉领域的同事和朋友们需要解决什么问题,又推动了计算机视觉的发展。
雷锋网:今年是IROS 30周年,大会有围绕这个主题做了哪些工作?
张宏:主要是把过去29年记录下来的会议内容重新呈现出来。比如说,我们大会的网站有一个脸书的网页链接,通过这个链接可以跳转到以文件夹方式整理的过去每一届的照片,这些都是很珍贵的记录。我们也收集了历届的一些视频,做成了视频集,会展中心许多屏幕上播放的就是以前不同时代的机器人的视频集。我觉得这是一件很有意义的事情,可以让现在的年轻人看看我们走过的历程是怎么样的,机器人的发展是怎么多元化的,前辈是怎么做研究的,研究条件是什么,问题是什么,成果又是什么。对当下一代来说是一种激发,对我们前辈来说也是一种回顾吧。
我们把之前每年的最佳论文也做了整理,想看当年这些最佳论文在10年、20年后影响究竟有多大。我们做科学研究的,想探究当初的评估和现在的评估相差有多大。这个问题的回答,对我们当下的判断和未来的计划都是很有帮助的。但最终这项工作没能及时完成,主要是没有时间对这些文章的影响力做充分和客观的评估。不过我们把搜集到的最佳论文也做成了视频。所有的视频加在一起一共大概4到5个小时,在会议现场都可以看到。
雷锋网:我有了解过IROS30年的历程,开头4届都是在日本举行的,第5届才开始在美国举办。IROS是如何走向国际化的呢?
张宏:日本对机器人一直都很重视,这与日本制造大国的身份有关。其它方面还有一些原因,例如日本希望用机器人来解决老年社会的诸多问题。但日本人在创新能力上与西方国家相比不足,80年代末日本有一些专家和学者想做机器人,但起点又没有西方那么高,那么怎么接轨呢?他们先在国内做一个学术大会,这就是最初的IROS。早期的IROS,参会者几乎都是日本人。如果想国际化,首先要把会议开到日本以外的其他国家去。第一次在日本境外办IROS在美国北卡州,大会主席是一位台湾华人,叫罗人权,当时在北卡州立大学当教授。而那个会也是我第一次参加IROS。IROS的初衷是想让这个会议国际化,提高水平,之后对整个会议的发展、整个机器人行业和学术界推动都起了正面的作用。
雷锋网:IROS已经成为国际性的会议,您能介绍一下中国研究者和中国企业在这次IROS上的参与情况吗?
张宏:中国这几年在参与IROS方面肯定是一个持续高速增长的趋势。今年中国的文章数量在亚洲排第二,仅次于日本,排在韩国之前。我们收到207篇来自中国的投稿,录用了67篇。另外,中国学者参加IROS会议是非常积极的。我们大会有一个重要的指标,即来自一个国家的注册人数和文章数量的比值,中国的这个指标非常高,达到了3到4,而其他国家,例如美国和加拿大,这个指标就只是2和3之间,所以说中国学者参会的热情还是非常高的。文章质量也处于上升趋势,中国机器人研究的学术水平在慢慢赶上西方,但是还有距离。中国最大的优势实际上是市场和资源,包括人才资源,我估计可能再过十年、二十年会赶上来。
雷锋网:如何理解人是发展机器人的优势?
张宏:中国之所以有机器人热潮,不是某些人脑子一热想做机器人,而是中国切实需要机器人技术。我们是制造大国,加工和制造各种各样的工业产品需要人力,要想降低成本、提高质量,就必须提高生产和制造的自动化和智能化的程度。以前中国劳动力成本便宜,现在人口红利用得差不多了,不便宜了。
不止中国,全世界的制造大国都有发展机器人的需求。而机器人做得好的国家,美国、德国、日本、中国,都是制造大国。相反像加拿大,它没有发达的制造业,经济主要依赖于自然资源,对机器人的需求就相对较低。
雷锋网:就您这么多年的经验,在加拿大做机器人研究和国内有什么不一样?
张宏:不一样的地方还是我刚才讲过的三个方面:科研水平、市场和资源。我觉得加拿大和中国刚好互补。西方研究水平相对高一些,最有影响力的好文章往往都是西方学者发表出来的,但西方的资源和市场比不了中国。中国有各方面的资源优势,包括政策、资金、制造业基础和人才等,尤其政府下决心做好一件事情,所能集聚的资源和迸发的力度是西方无法企及的。
加拿大的机器人会有什么样的需求?例如我有个同事做水下机器人的研究,项目源于实际需求,即加拿大的东部有漫长的海岸线,航道上每年都有很多北极飘下来的冰山,必须对这些冰山进行实时的测量和跟踪,分析是否会对航行的船舶造成威胁。这项工作他们希望用机器人来完成,因为对人类潜水员而言,除了巨大的安全风险还有成本的问题。
雷锋网:IROS是如何推进学术研究和产业应用的结合的?
张宏:学术研究和产业应用结合是一件挺挑战、有时令人困惑的事情,因为产业界和学术界做机器人的目标不一定完全一致、有时甚至差别颇大的。往往产业应用需要的是可靠性、控制成本,最重要的是商业一定要成功,不希望花很多时间和精力去做基础研究;而学术界主要做学问,想的往往是如何创新、如何证明新技术的可行性,也许十次实验做成功一次就能证明某个想法。再者,做学术成本是次要的问题,例如我们送一个机器人去火星,怎么把钱赚回来?还是得靠政府拨款。所以,学术界和产业界接轨是件很有挑战的事情。
最近这些年机器人之所以火热,恰恰是很多大IT公司对机器人感兴趣,比如说Amazon、阿里巴巴、Google和苹果对仓储管理机器人和无人车的投入,对整个机器人学术界是一针强心剂。在我看来,学术界和产业界结合最大的意义或者说最容易互动的方式不一定是研究成果的直接转化和应用,而是为产业界培养人才。我们精心培养的高素质人才有扎实的专业基础知识,有良好的学习习惯和方法,有很强的研究实践能力,使得他们到公司后可以顺利的完成产业化和应用项目。产业化本身的科技内容往往并不是最前沿的。机器人领域现在很火,高科技公司需要人才。我们机器学习、人工智能、机器人等方向的学生,现在有非常好的就业机会。因此,从我理解的角度讲和产业界合作,最合适的方式之一是培养人才,对产业界来说这也是他们必不可少的。
雷锋网:您在机器人与SLAM上有多年的研究,您会如何概括视觉SLAM技术多年的发展过程?其中有哪些关键节点?
张宏:SLAM研究经历了一个漫长的过程,到今天机器人从理论上讲可以实现自动构建地图和定位、环境感知和自主导航等,现在最大瓶颈仍然有两个。
第一个瓶颈是精度问题。我和国内一些公司针对视觉SLAM在物流仓储等应用有合作研究。因为视觉方案成本很低,可以大规模使用,但是定位精度在一般在10-20厘米。这样的定位精度对很多工业应用是远远不够的。
第二个瓶颈是对环境变化的适应性问题。我们人类的视觉对环境条件变化有很好的适应性,比如说白天经过的地方,晚上再次访问,不会迷路。对光照条件、动态物体、视角变化,人类视觉的适应性非常强,但机器视觉的适应性相对差了不少。对于提高机器视觉的适应性方面,我认为深度学习将会发挥非常大的作用。
雷锋网:近些年SLAM技术在工业界有不少应用,当中有什么原因在推动呢?
张宏:最主要的还是需求。现在的应用案例中,更可靠的方案还是基于激光雷达的。激光雷达有其缺陷,虽然精度很高但成本也很高,局部定位很好但全局初始定位难,等等。因为点云与图像相比特征贫乏,匹配的时候会出现大问题,这是激光雷达的致命弱点之一。
多传感信息融合是其中一条可行路径,例如我们用激光雷达和视觉信息融合实现机器人定位。从工程角度而言可能是更好的方案,也是可行的。但做研究工作出发点不太一样,往往我们希望探究只用视觉传感如何完成导航,问题可以通过怎样的途径,解决到怎样一个程度 ,能够达到怎样的最佳状态。
雷锋网:那能不能说SLAM技术已经足够完善,剩下的只是工程问题了吗?
张宏:我个人认为不是。SLAM当中仍然有很多待解决的学术问题。判断一项技术是不是成熟,可以去注意我们这些国际学术会议上发表的文章的关注程度即可。热门关键词SLAM和定位等,关注度仍是排在非常靠前的位置的。这意味着当中仍有很多课题值得去研究。顺便提一句,现在最火的关键词之一是深度学习,其关注度从无一跃到第一、二位。排名再往后是一些相对比较传统的领域,例如运动规划,还是很热门的。从关注度排名你可以间接判断,我们离达解决SLAM问题还是有一段距离的。
雷锋网:除了SLAM,您还有做哪些方面研究,其研究现状是怎么样的?还面临哪些主要的挑战?
张宏:我另一个非常感兴趣的方向是移动操作,因为如果机器人只移动不执行操作,用途是有限的。为扩展应用场景,操作一定要和导航结合在一起,但操作本身有一系列复杂的问题。
我30多年前最开始研究机器人的时候,就是做博士论文时就是研究机器人操作的。移动操作方面,很多简单问题我们当年搞清楚了,但更复杂的问题就放下了。现在导航方面有了不错的进展,很多问题可以进一步深入开展了。我们需要回到老问题:实现导航后,怎么让机器人更有用?那就是操作和导航的结合。
例如,我希望坐在沙发上,让智能机器人帮我到冰箱拿一瓶酒来,但是这项任务包含若干难度较高的子任务,包括导航到厨房,定位冰箱,打开冰箱门,识别和定位啤酒,抓取,关上冰箱门,把啤酒送回来等。我们所看到现在的一些展示,做了不少简化,比如不是机器人把瓶子给人,而是人把瓶子从机器手上拿下来。内行人能轻易看出来,机器人其实并不知道、不理解自己在做什么。移动操作在我们的生活和生产中是非常广泛和普遍的一个任务,是很重要的研究课题,也是我感兴趣,并做了很多积累的方向。
读者福利 雷哥最近整理了2015-2017年间,在人工智能领域研究、应用、融资报告以及人物专访等26个文件,从这些文件中或许能给在人工智能领域苦苦探索的你一些灵感。关注雷锋网微信(leiphone-sz),输入 “0633” 获得报告原文。 ● ● ● 近期热门文章 黄牛都看不上 iPhone 8,我们找了 7 个人来聊聊为什么 被称为史上升级变动最大的 iOS11,到底有哪些黑科技? HTC 部分“卖身” Google,11 亿美元的交易意味着什么? |