Leiphone雷峰网

竹间智能成立于2016年，主要是做文本分析、自然语义理解、情感计算。竹间智能主要有两条产品线，一条是类脑对话机器人，包含了客服机器人、导购机器人、金融机器人、营销机器人、个人助理、品牌IP机器人等；一条是多模态情感识别系统，包括情绪识别分析系统、人脸表情识别系统、印象分析系统、广告效果分析系统、呼叫中心质检系统、课堂情绪分析系统等。

目前大多做对话式人工智能的公司专注于文本，而竹间智能的多模态情感识别则包括了文本、语音、人脸表情等多个模块。雷锋网此次采访翁嘉颀也主要围绕着情感计算技术和商业化落地两个方面。

在翁嘉颀看来，人机交互分为三个层次，最底层是自然语言处理，第二层是意图理解，第三层是理解背后的涵义，目前业界还停留在前两个阶段，要做到第三个阶段，情感计算不可避免。

情感计算的难点在于不仅要准确理解单个模态的情绪，当多个模态的情绪发生冲突时，还要准确判定哪个情绪才是真实的，比如当一个人的语音情绪是高兴的，但是面部表情却是愤怒的，那他是高兴还是愤怒呢？更难的地方在于，当AI获知人的情绪之后，如何进行反应，如何去安慰心情低落的人？

竹间智能以电影《Her》里的智能机器人赛曼莎为原型，认为机器人应该能看懂人脸表情、听懂人类对话，从一开始就致力于多模态情感计算。且创始人简仁贤从一开始就不只是关注在手机、音箱里的智能语音助手，也关注卖场、零售等场景，在这些场景中，只有文字和语音的交互显然不够，视觉必不可少。

然而，目前除了零售场景外，情感计算的落地场景还需要探索，毕竟很多私人的场合，比如家庭里，就很难接受有机器人安装了摄像头。

翁嘉颀认为现在语文和文本技术能够在特定领域帮人解决问题，特定领域是指我要订酒店、订餐馆参观，能与人进行自然对话，而无需让人去按照机器人的逻辑说话。未来，每个人都会有自己的智能助理，能够理解你的情感、你的意图、帮你打理日常生活。而每个企业也会有客服机器人，以后很可能就是用户的智能助理和企业的客服机器人打交道。在这些场景里，大公司和创业公司都有机会，没有公司能解决所有的技术和场景。

以下为采访原文，雷锋网进行了不改变原意的编辑和整理。

雷锋网：您目前在竹间智能负责哪些工作？加入竹间之前您的工作经历是怎么样的？

翁嘉颀：我从1982年开始从事计算机，27年前接触人工智能，当然那个年代做人工智能其实做不出，因为那时候的人工智能已经整个走下坡了。当时绝大部分做AI的人都转去做搜索引擎，因为搜索引擎跟文本分析有一定的关系。我在搜索引擎领域做了大概11年，现在我又回到人工智，这一次AI应该不至于再泡沫化，它是真的能够走入人类的生活。

我大概在两年半之前加入竹间智能，目前担任公司CTO，负责技术部分，包括设计竹间目前整个对话的架构、模块怎么反映、模块如何交互等，以及整个对外项目的落地

雷锋网：能具体说一下有哪些模块吗？

翁嘉颀：聊天机器人大概分三类，第一种是功能型的机器人，像SIRI、微信语音助手，可以查天气、可以查股票、可以去设置一些提醒；第二种是知识型的，你可以问他陆奇去哪儿工作了？（这个是昨天最大的新闻，他加入拼多多了），可以问陆奇离开百度之后，股票到底跌了多少（三天大概跌了18个点）；第三种是闲聊，可以与人类进行情感对话，进行情景式聊天。如果你跟机器人说你失恋了，那我们要想机器人该如何回复，如何去控制整个对话的上下文的话题。

我负责的是整个对话的流程控制，比如用户说了一句话，机器人需要判断应该是执行任务、提供知识、还是开启闲聊，因为每个模块都可以触达。这个跟搜索引擎一样，百度的搜索引擎背后大概有300多个模块，谷歌背后大概500多个模块，今天问一句话，它其实300多个模块都出来答案，出来答案之后，那我该如何把答案整合，做个排序。第一页应该看到哪些，第二页看到哪些？

那聊天机器人也是，聊天机器人更严苛，因为我没办法回答100句话，我只能回答一句话。这时候我应该选哪句话来回答，让它会比较生动一点，又没有那么呆板，但是回答又不会太离谱。这是整个对话控制在做的事情。

雷锋网：现在有像微软小冰一样同时发展智商情商的对话机器人，也有一些创业公司做得更垂直，主攻任务型，或者是知识图谱领域。竹间智能在往哪个方向发展？

翁嘉颀：微软小冰将智商与情商结合的概念是对的，竹间智能的创始人简仁贤也是微软小冰的创始人之一，他在2015年从微软出来创办竹间智能（Emotibot），公司名字的命名就是“情感机器人”的意思。竹间智能其实比微软小冰还早一年半做情感机器人。

情商跟情感并不是一个意思，情商它的意思是我真的去理解你，我不会冒犯你，我不会冷冰冰的去回答一个东西，那这个当然包括情感计算在那边。

在文字情绪方面，有些企业做了正、负、中3种分类，微软小冰可能做了6种，而竹间智能在文字情绪上面做了22种分类，会更精准地探测无聊、嫉妒这些情绪。

光是文字情绪是不够的，我们还做语音、表情情绪。例如，一个人说我高考考了500分，这时候你并不知道应该表示恭喜还是安慰，这时你就需要知道语气。一般来说，语音的情绪会比文字的情绪的重要度更强，信号更强烈。人脸表情的情绪要复杂一些，因为我讲话讲到一半的时候，我的脸可能是扭曲的，我的嘴巴刚好张开，这个时候抓拍下来，不代表我现在是惊讶的。

那么，文字、语音、表情混搭在一起，就更加复杂了。像我最常举的一个例子，我面带着微笑，跟着我的同事说你死定了，面部表情的情绪和文字的情绪是冲突的，这时候应该怎么办？

这是一个多模态情感的概念，就是你目前的情绪是文字、语音，再加上人脸表情，整个混搭在一起，然后各有各的权重，通常文字的比重会稍微低一点，语音会是最高的，人脸表情算是排在中间。

刚刚的那个例子，我面带微笑说你死定了，其实这个还要看上下文，如果前面两个我们都在开玩笑，我突然面带微笑说你死定了，那还是开玩笑，如果前面两个我们根本在吵架，我突然面带微笑说你死定了，那肯定是在威胁你，所以这个情绪情感其实不是只看文字。

雷锋网：情感计算这个概念最近大家说得比较多，能说说您对这个概念的理解吗？

翁嘉颀：情感计算是由MIT教授Rosalind Picard提出来的，他是情感计算的始祖。然后以目前来说，我一般把人机交互分成三个层次，最底下的层次叫做自然语言处理，比如“我肚子饿”、“等会儿想吃东西”，这两句话，它的句法分析是不一样的，这是最底下的一层。

第二层叫做意图的理解，这两句话虽然不一样，但是它意图是一致的。它的意图可能代表说，我想要点外卖，或者我要找附近的什么餐馆。

然后，第三层是背后的意思，目前还没有人能做到，像我在今天这个场合，我们第一次见面，我如果突然跟你说我肚子饿，我相信你的心里感受不会太好。你总会觉得说，我是不是来要饭的？那如果我跟一个女同事说我肚子饿，她搞不好觉得说我是不是要约她出去吃饭，是不是有不良的企图？在不同的场景、跟不同的人、在什么样的状况我讲同样的一句话，它其实背后代表的意思是不一样的。

目前大家都还在做第一层和第二层，我如何把句子分对，我如何让句法结构是对的。在这方面，国内哈工大有很多专家。第二层意图理解这个也很多人在做。目前可以做到大概可用的地步，我对电视、音箱讲说“来首谁谁的歌”，它知道我是要听音乐。那我跟音箱说，“谁谁的歌好难听”，也不代表我要听他的歌，我只是说以后不要再放他的歌给我听，现在能做到正确理解这些句子的意图。

第三层，背后的意思。我讲肚子饿，这句话到底背后真正的意思是什么？那要走到这一步，情感计算不可避免，整个场景、情境你不可避免。

雷锋网：现在竹间智能有将文字、语音、人脸都融合到一起来做情感计算的落地场景吗？

翁嘉颀：讲一个我们帮夏普电视做新零售的例子，夏普有个新开业的商场旗舰店，那个商场里边总共有五家卖电视的。开业的前三天，夏普的营业额90万，另外四家加起来营业额只四十几万，夏普一家就超过其他四家的总和，这是怎么做到的？

我们在卖场的入口放了一个大的电视屏，可以抓拍每个路过的人的脸，能识别出男/女、长头发/短头发、岁数、表情、颜值等，很多人会停下来看。然后我们根据用户画像，进行不同的商品和优惠活动的推荐。这样使得进店的客流就是别人的五倍以上。

进到店里后，我们有无人的智能货架，上面安装了平板、摄像头，当摄像头看到一个长头发的女生走过来，智能货架就会主动打招呼，说，“这位女士，你的头发非常好看，我这里有洗发、护法、润发的产品，你有没有兴趣？”如果说摄像头识别到女生脸上有黑斑，还会自动推荐遮瑕膏等产品。

如果对方回应了，则会继续话题；如果摄像头发现消费者的脸色变得越来越难看，它就会停止话题。所以我们看到，这个案例里的交互包括了有人脸、语音和文字。

雷锋网：现在的对话式人工智能主攻语音，竹间智能为什么一开始就重视视觉？

翁嘉颀：我们的对话式人工智能的想法主要来自于电影《Her》，里面的智能助手赛曼莎可以全方面地感知用户的状态，能看到用户的表情听到用户说的话。任何人的交流，语音固然重要，但是很多时候其实一句话都不用说，一个表情就已经足够了。

比如你进到一家门店，看到某个产品露出厌恶的表情，那其实就已经表达出来了你根本不喜欢这个产品。

所以那时候在做的时候，一开始起步，我们就有图像处理、语音处理，有文字的处理，当时老板（简仁贤）已经想好他未来要的场景。不只是有手机上的人机交互、音箱上的人机交互，还要包括进到卖场里边。那么视觉就是必不可少的部分。所以一开始老板的野心就比较大。

雷锋网：文字、语音、人脸的多模态情感计算的难点在哪儿？

翁嘉颀：比较大的难点当然是几种情绪相冲突的时候应该怎么办？你如果说文字里是高兴，语音也是高兴，人脸表情也是高兴，那没问题，小学生也知道这是高兴。

它语音是愤怒，文字是高兴，比如我很愤怒的去说，“我今天很高兴”，你听了以后你觉得是什么意思呢？要解决这个问题，首先是文字、人脸和语音的情绪识别要准确，再一个就是几个情绪相冲突的时候，我到底该以谁为主？

一般来说，语音情绪占的比重更大，但是如果说语音情绪是愤怒，但是信心程度只有三四分，文字说你是高兴，信心程度99分。这个时候应该怎么办？

还有一个重要的点是整个情境，虽然有三个多模态的判断，但是如果只有一小段，也是不够准确，我还要看连续的情境，因为人情绪变化不至于太快，你当然有时候瞬间会惊喜，瞬间会爆怒，但是不代表说，你一生气下一秒突然就变高兴，所以整个连续的情绪要去考虑，这个是比较大的一个难点。

最后，一个最难的地方是，智能助手发现你愤怒或者悲伤，该如何去安抚你、安慰你，情绪判断完之后，该怎么回应？

雷锋网：多模态情绪计算的方案在你们现在的业务里能占到多大的比例？

翁嘉颀：目前来说，智能客服绝大部分没有视觉，然后智能电视、冰箱、音箱也都没有摄像头，毕竟你在家里面装一堆摄象头，让人感到非常不安，这个肯定侵犯你的隐私。

在公共场合，比如外面的卖场、银行，有摄像头也有监控，这个大家是接受的。

比如说我去面试的时候，有一个摄像头对着我，然后我在这里讲话的时候，帮我做着人脸分析，这个感觉有些怪怪的，但是可能可以接受。

人对摄像头的接受程度要看场景，而且也许要看年代吧，每个年代接受的东西都不一样，像现在七十几岁那一辈，真的会用手机吗？会用电脑，这个可能接受度不高，大家会用APP吗？还是习惯拿电话起来讲，拿电话去沟通交流，而不是用app，用网络。

可能五六十岁这一代，他可能不太习惯用搜索引擎，因为他长大的那个年代没有搜索引擎。然后四十几岁这一代，用APP的比例绝对没有二十几岁这一代来得多。

所以这个还是要看，未来的一些变化，有些场景接受的，有些场景不接受。

雷锋网：像现在有一些音箱已经有屏幕了，有可能添加视觉吗？

翁嘉颀：目前来说，加了可能还卖不好。通常如果加了一个摄像头的话，我还要再加一个盖子，我可以把这个盖子盖起来，把摄像头遮住。

必须告诉用户这儿有摄像头，而且还可以给他一个盖子，让他必要的时候可以把摄像头遮住，这个用户可以接受。要不你突然加个摄像头，你的成本增加，反而卖不好，让大家会觉得这个音箱在干嘛？

而且音箱至少说OK，我把它关掉，摄像头就没了，而不是你在家里天花板上到处装满了摄像头，那个真的一点隐私都没有。

雷锋网：如果它是一个机器人呢？有着跟人眼相似的眼睛。

翁嘉颀：我们看科幻电影的时候，大家是接受的，机器人可以在你家里走来走去？但是你真的摆一个这样的机器人，有摄像头在你家里边，你心里现在应该不会太舒服。

雷锋网：竹间智能有机器人工厂（Bot Factory），帮助企业定制机器人，那么你们会不会让每个定制的机器人具有它自己的个性？

翁嘉颀：目前我们先只做到最简单的，机器人有机器人的属性。机器人叫什么名字，是男生还是女生，今年几岁？晚上睡不睡觉？长什么样子？爸爸是谁？妈妈是谁？来自于哪里？我们会根据大家最常问的这些问题进行设定。

此外，有些机器人的风格比较严肃，有些则比较俏皮。这个我们目前有做一些开关，像有些机器人可以讲笑话，有些机器人只能查天气。

我们有尝试下一步，能不能有一个你自己的机器人，我拿你平常跟你朋友聊天的一些数据来进行训练，学习你讲话的方式，那你就有一个你的机器人，用你的风格在聊天。

这一步在技术上是可行的，目前只是数据量的问题。我需要取得足够的数据，让那个机器人可以慢慢的接近你的行为。但这又牵涉到你愿不愿意把你的隐私公开出来，你跟你朋友聊天的那些对话，都是你的隐私。

雷锋网：这个你们有在实验了吗？

翁嘉颀：我们两年前实验过，但是发现用户没有这个耐性，因为你可能要花很多时间，你教一个小朋友要教多少年？十几年，二十年，对不对？你有那么多耐性去教一个机器人吗？你大概教个两天就没耐性了，所以这是耐性的问题。

雷锋网：现在像微软小冰，还在往人工智能创作方面发展，她会写诗，会唱歌、会写新闻。在这个方面，你们怎么想？

翁嘉颀：其实写诗、对对联，这个难度相对来说不高。因为它其实是在一个非常有限的方向解决问题。从好玩的观点来说，这些是很好的，大家会觉得很新鲜。

但是从实用的观点来说，做这个东西如何帮助解决问题、能够替我赚钱，目前还比较难派上用场，当然小冰的定位是陪伴，就是让你不会那么无聊。这堆花哨的东西反而是好事，是有帮助的。

雷锋网：竹间智能一开始就注重商业化？

翁嘉颀：对，因为我们必须往商业化这个地方走，我做一个很有趣的机器人，其实是收不到钱的。因为微软无所谓的，微软它有Windows、Offices这些盈利业务，就可以把小冰做成好玩有趣的。

雷锋网：现阶段来看，您期望对话式人工智能达到什么样的水平？

翁嘉颀：我觉得现在技术水平能够在特定领域帮人解决问题，特定领域是指我要订酒店、订餐馆，它能理解我的对话。订餐馆的机器人，需要理解特定的话，比如，“七八个人有两个小孩”和“七八个人再加两个小孩”，这两句话，意思不一样。

人说话，通常不会直接表述，会有各式各样的说法。比如，“我跟我爸妈要帮女朋友庆生”，这代表需要几个座位呢？他不是告诉你四个，他是告诉你一段奇怪的文字。那么，在这个领域，需要让机器人听懂人类的这些话，而不是让人类去适应机器人，用机器人能听懂的方式回答。

我觉得未来，每个人有一个自己的机器人，那个机器人知道你的喜好，你跟他说帮我订个外卖吧，他知道你喜欢吃什么，不喜欢吃什么，还知道你昨天、前天吃了什么，今天不要订一模一样的。我跟他说帮我打个电话给妈妈吧，他知道妈妈指的是谁。

然后知道你妈妈的电话，知道几点打电话合适，他可能会提醒你说，现在太晚，妈妈已经睡觉了。

以后，每个企业可能也会有一个自己的机器人，比如麦当劳，可能有个订餐的机器人，帮你负责订餐，那如果你有一个自己的机器人，麦当劳有一个机器人，未来可能是机器人跟机器人沟通。

我只要跟我的手环说，帮我点个巨无霸吧。然后它知道巨无霸是麦当劳，它就跑去找麦当劳机器人，两个机器人，不一定是用人类的语言交流，它们会用它们的方式交换信息，然后麦当劳就处理这个东西，就把这个定单结束掉了。

雷锋网：在这种未来图景里，大公司占据了终端优势，创业公司的机会在哪里呢?

翁嘉颀：微信是一个很天然的入口，因为大家现在习惯打开微信，比如，我在微信上面说，“我这个月刷卡刷了多少钱？”微信的机器人知道你三张卡：招行、交行、浦发的卡，它就去找这三家机器人，帮你做身份认证，你不用开三个银行的APP，微信的机器人能直接告诉你三家银行的信息。

当然，入口很难是小公司能够去抢占的，但是语义理解，微信一家搞不定，腾讯一家是搞不定的。我的语义理解包含说每一家招行、工行、浦发，它后面也要有这个机器人去接受这些指令。或者接受一句自然语言。这个东西其实是每一家还需要帮助的。

- END -

关注雷锋网（leiphone-sz）回复 2 加读者群交个朋友

Leiphone雷峰网

最新精华更多

对话翁嘉颀：畅聊竹间智能情感计算技术与商业落地 | CCF-GAIR 2018

最新有关Leiphone雷峰网的文章