清华大学史元春：人工智能使人机交互成为现实-电子工程世界

　　1月15日消息，在“新时代新发展”的清华五道口金融EMBA&EE 2018年新年思想汇活动中，清华大学计算机系人交互与媒体集成研究所长、信息科技术国家实验室普适计算研究部主任、全球创新学院 (GIX) 学院院长史元春，进行了题为“智能交互——让机器更懂你”的分享。她认为在普适计算机时代，随着更多的嵌入式设备的出现，如何更加自然地进行人机之间的信息交换具有重要意义。下面就随网络通信小编一起来了解一下相关内容吧。

　　史元春指出，在计算机几十年的发展过程中，人机交互也就是人和机器之间的信息交换的技术，我们可以不夸张的说，也是一项引领性的技术。而人工智能和大数据的进步使人机交互成为现实、可用。

　　史元春认为，人机交互的目的是为了让机器更懂“你”，让用户更加自如。她还通过“胖手指”、“空中打字”等案例分享了人机交互领域一些前沿的技术突破。

　　“智能技术的研究，也就是我们把一些模糊和用户行为习惯识别为具体、准确交互意图的研究，大有可为”，史元春认为，未来有望通过数据采集和建模来捕捉用户的所有姿态和行为，从而生产出真正理解用户的手机，让手机交互行为的感知更加精准和智能。

　　史元春表示，人工智能技术的深度应用，能做到从模糊的行为习惯中解读出准确的意图，将为未来人机共生提供可靠的技术基础。(王上)

　　以下为史元春演讲实录：

　　各位下午好，非常荣幸有这个机会和五道口金融学院的老师和学生们交流，我叫史元春。我跟大家的经历不太一样，来自于计算机系。并且我在这个学校和计算机系有30多年了，从学生到老师。简介中谈到我是GIX学院院长。GIX的英文叫Global Innovation Exchange，是清华大学全球创新学员，它也是清华第一个在海外办起来的学院。

　　是我们在两年多以前在美国的西雅图和华盛顿大学联合创办，也很欢迎我们更多的五道口金融学院的同学，能够有机会去西雅图，我们清华那样一个特别的学区来学习和交流。

　　今天这个演讲的题目是关于我的科研的，科目叫智能交互。这里的交互是指人机交互。我们知道计算机的发展历史只有几十年，不是很长，但是这几十年来它已经和正在为我们的社会发展带来了巨大的变化，在计算机几十年的发展过程中，人机交互也就是人和机器之间的信息交换的技术，我们可以不夸张的说，也是一项引领性的技术。

　　从我的这个表上大家应该可以看的出来，随着接口技术的变化，交互模式也发生了变化，计算机从实验室、机房已经走到了我们的办公室、家庭，甚至今天已经都走到了我们的手上，计算机的台数也发生了极大的数量级变化。

　　到了今天，我们已经走到了所谓的普适计算的时代，也就是说在我们的工作和生活的很多方面，我们有特殊的手持的设备，像今天的手机，也有更多的嵌入式的系统，像家电设备，还有更多实业以及社会生活场景会有越来越多这样的设备，我们人们会有更多、更频繁的，并且希望与更自然的方式，和这个机器发生着关系。

　　也就是说我们可能会与手持的设备、家电的设备、穿戴的设备，机器人和无人车，以更自然的模态，G比如说包括用语音、用语义丰富的手势，甚至是我们日常的行为，在很多的场景中，可以跟机器的系统，计算的系统发生互动，有效的来进行信息访问和信息系统提供给我们的现实服务。这些接口、终端和任务，我都在我们使用过程中，首位的自然，就是需要我们的人不需要那样很精准的表达，是一种模糊的表达和传达的方式。

　　但是，在机器端能够给我们精准的理解和服务。

　　我们今天的这些交互方式其实还是很规范的，甚至我们都在用的手机，它是一个严谨的结构，一个抽象的概念，我们有一点的学习甚至是记忆的附和，还要有比较准确的表达。

　　如果要实现这个人的模糊的表达，到精准的服务之间，需要克服这样一些技术挑战：

　　比如我们的交互意图很内在，那么我们获得的数据随机性很大，用故行为的差异性也非常大，应用的场景也是各式各样的。因此，这些问题需要我们在相应的研究中来进行克服，并且人机交互它既包括我们所使用的各种直接的、离用户很近的接口也包括一个交互过程的优化。这里我简单看看接口，它应该保包括从我们人机交互的研究来看，包括计算机用户，输入接口和计算机处理结果，反馈给用户的输出接口。

　　从输入来看也就是说我们的人意念产生了一个访问的请求，当然未来如果我们的脑机接口的技术，也就是所谓读脑的技术能够发明的话，那我们就可以直接来获取这个用户的意图。但是，大家可以看到我这个图上画的还是一个虚线，今天还是不太现实的，那么我们的意念还是要通过我们的行为系统传达给机器。

　　我们的行为可以是在使用工具，也可以刚才讲到，像自然语言和各种姿态。

　　今天在我们的传感技术和识别的技术都有了很多的进步，比如说大家用的这个手机屏，可能留了一个小刘海，今天的大手机屏，那是因为那个上面有10几个传感器，还不能在屏下，只能单独的露出来。我们现在的家庭里面可能已经有智能音箱来帮助我们服务，这个是语音识别技术的进步。甚至于人脸识别已经变成了我们这种身份ID。

　　这些技术实际上在几十年前都已经提出来，最近的人工智能和大数据的进步使得成为现实、可用。但是，在交互接口上还有很多需要优化和需要创新的的一些方面。这里我举两个具体的例子：

　　大家都有用手机，手机上面我们还是要有我们本输入这样一个基本的任务的。大家在用微信，今天这个场合也有几个人在用，这个时候你通常是在敲，而不是用语音识别，因为需要一个静默的环境。你敲的时候，大家如果用过电脑的话，你会觉得你的速度比用物理键盘慢了一倍，为什么慢?这就是人机交互中很典型的一个问题“胖手指问题”，是因为我们的手指，远比我们点击的对象要模糊的多。也就是对象的精准点击，用我们的fat finger是很难完成的，所以点不准你就慢下来了。

　　今天在场有不少人也戴了智能手表，就像这个图一样，我可以给你装一个软件，也会有一个软件全键盘，但有人会用吗?你肯定想着我不会用，因为与我们在手机上进行输入的速度和体验来说，2毫米的小键盘根本不可能用，这是一个典型的fat finger问题。

　　可以给大家看一个我们在实验室的研究结果，我们在手机上做了一个全键盘，会看到输入的速度还是可以接受的，实际速度一个实测的结果，跟你在用手机进行输入的速度是一样的，每秒30-40个字左右。这是靠我们对电容图像的智能处理和自然语言模型相结合获得的结果，在一定程度上克服了所谓的胖手指问题。

　　用同样的原理，我们还可以提供比如现在手机上很现实的技术，叫防误触。手机的屏幕现在越来越大，有全面屏和曲面屏，同时也会带来一个问题，你握着它的时候会误处。

　　同样我们在多特征的图像处理算法上的一些进展，使得我们在防误触上有比较大的进步。最近华为刚发布的mate10以及刚刚在美国发布的，相信在座也有人在用这个手机，如果你再用它的话，它上面每秒120次，一直在运行，是一个高性能的算法，就是我们实验室给它做出来的。

　　这个做的结果是什么?是从其他原有产品，误触率在13%，这个体验很不好，我们给它的算法直接降到0.3%，这个体验还是非常好。

　　自然交互中，我们还很期待一些很科幻的场景，比如我们在很多科幻片中会有这样的，像手势、姿态的交互和识别。实际上手势识别或者姿态的识别，在人机交互是一个很难的命题，像一些具体的任务上，比如空中打字，也就是我抬手，现在很多人有盲打的能力，实际上你一抬手就在敲你想打的字，你已经有了这个习惯。

　　在20多年前，大家就已经设想，未来应该能够实现这样的技术。这个图虽然不是很清楚，右下角是苹果20多年前曾经设想的，在台式机上，不用这个键盘，抬手就可以打字。

　　上面这个照片，是我在hollow lens即将发布的时候，在微软的时候带着它的，今天如果你带了hollow lens，就是VR、AR的技术使得我们眼前可以呈现三维的虚拟对象，那么你跟他进行交互的时候，我那个照片在打的时候，因为hollow lens只支持这样一个动作。那么它的软键盘在我面前，我只能一个一个的点，并且非常不准确。

　　看一下我们做的实验结果，对人在空中打字行为所携带的信息量充分挖掘而进行建模。处理充分挖掘是说，我们的主动手、被动手，主动手指、被动手指，以及位置随意的变化、落点和语言模型的结合，可以使得我们实现几十年的理想，科幻的一个结果。实际上用这样的技术，我们还可以实现很多场景下跟踪、交互和自动理解用户的意图。

　　交互意图的理解，我们建立了一套，通过数据采集、行为建模以及AI的一些分类算法，最终实现特定交互任务的一套研究方法和体系。我们把它用在手机上，目前希望能有更多的捕捉，因为手机上其实大家不知道，里面有非常多的传感器，并且进去更多所谓的building sensor，还会专门从体系结构上制造一个sensor heart的出现，我们可能能够捕捉更多外在用户的心态，包括卧姿、面部甚至眼神等能力，我们会提供一个手机交互全行为感知的能力，未来大家在使用手机上会有更好的体验。

　　从这个角度，所谓智能技术的研究，也就是我们把一些模糊和用户行为习惯识别为具体、准确交互意图的研究，大有可为。即便从我们今天在手机这个问题上来看，我们也仅仅刚刚开始。大家不要以为我们今天的智能手机只是10年前才有，其实30年前就有，这是美国很普及的一本杂志叫《大众科学》，这是它1995年的封面文章，这个图上大家注意到，是1988年左右帕克研制的智能手机，实际上是iPhone原型系统。这cap model当时有各种计算、传感和应用，以及识别的能力。

　　这个照片上我们可以看到，它跟我们人类的思想者紧密的结合在一起，共同互相了解和支持，更多的发现世界和获得能力的过程。随着计算超速手机渗入到我们生活更多方面，智能技术的进步，也将为人机共生的美好前景提供支撑的技术。

　　很高兴有这样的机会跟大家分享，祝大家新年好!

以上是关于网络通信中-清华大学史元春：人工智能使人机交互成为现实的相关介绍，如果想要了解更多相关信息，请多多关注eeworld，eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。

关键字：人工智能人机交互引用地址：清华大学史元春：人工智能使人机交互成为现实

上一篇：人工智能领域最重要的10大里程碑：AlphaGo征服世人
下一篇：AWS、谷歌和微软：尽量使云免受英特尔处理器安全漏洞的影响

推荐阅读最新更新时间：2024-05-07 17:50

英特尔携手美国红十字会，将人工智能技术用于防灾备灾

美国红十字会及其“缺失地图”项目（ Missing Maps project），正与英特尔共同应用人工智能技术绘制发展中国家易受灾地区的地图，以帮助其防灾备灾。在2019年，英特尔数据科学家构建了一个计算机视觉模型，该模型能够识别乌干达卫星图像上先前未被标记的桥梁和道路。 “对红十字会的工作人员而言，在防灾规划和紧急响应过程中，精确的地理信息极其重要。但世界上有些地区还未被标记在地图上，这给防灾规划和灾害响应造成了极大的困难。正因如此，我们与英特尔携手，运用人工智能技术绘制易受灾地区的地图，标记道路、桥梁、建筑物和城市。”—— Dale Kunce ，“缺失地图”项目联合创始人、美国红十字会Cascades大区首席执行

[物联网]

奇点将至——VR产业四大未来发展趋势

VR不是个新概念，早在上世纪50年代就有首款VR设备出现。去年以来，5G、云计算、芯片和显示技术的发展，以及疫情的催生共同推动VR产业进入了起飞的新阶段。设备规模加速上量，内容题材日益丰富，爆款游戏加速设备放量，用户增长又反哺内容丰富，VR生态正逐步进入良性循环，呈现四大发展趋势：虚拟社交或成重要应用；企业VR市场规模五年内有望超过消费者市场；融合创新将持续推动用户体验提升；终端出货量未来几年将稳步增长，2024年预计超7500万台。 01、VR是个老的新概念虚拟现实是个老的新概念，自上世纪50年代首款VR设备出现，已过去了70个年头。 2014 年 Facebook 以 20 亿美金收购虚拟现实公司 Oculus，VR 设

[嵌入式]

人工智能和区块链协作发力，宇宙飞船将自我应对挑战

随着人类探索宇宙的脚步越走越远，无人宇宙飞船将面临一个日趋严峻的问题：随着与地球的距离越来越远，传递信息和指令所需要的时间也将越来越长。这样的时间滞后会给宇宙飞船躲避快速运动的威胁——例如太空垃圾，或者迅速抓住机遇收集意料之外的数据（例如飞过的陨石）增加困难，甚至变得不可能。美国航空航天局将向位于俄亥俄州的阿克伦大学提供资金，资助解决这一问题的研究项目。研究团队将利用在以太坊区块链网络上运行的深度学习人工智能技术，帮助宇宙飞船自己“思考”，应对这类问题。该项目负责人、阿克伦大学助理教授金伟·柯奇士（Jin Wei Kocsis）在一份新闻稿中表示，“我希望开发的技术能识别环境威胁并躲避它们，并能自动完成诸多任务。工作得

[嵌入式]

赵明怒斥假新闻：称华为AI研发团队非常稳定

针对网上流传的，有猎头透露，苹果的深圳研发中心整体挖走53名原华为荣耀 AI 研发团队的消息，被不少用户关注，当然外界也想知道这件事情的真相。对此，荣耀总裁赵明在微博上辟谣称，荣耀并无AI工程师被挖，“这是一条假新闻，纯属造谣。” 荣耀总裁赵明在个人微博上辟谣称，荣耀并无AI工程师被挖，“这是一条假新闻，纯属造谣。我们在AI人工智能的发展上，有着长期的技术积淀，核心研发团队一直以来都非常稳定，我们的技术团队正在努力为用户打造最优的AI手机体验。” AI是众多厂商押宝的技术方向之一，围绕该技术的竞争也在愈发激烈，华为在这个技术上投入比较深，所以这样的消息将他们带进去也是情理之中的事情吧。你怎么看此事？

[嵌入式]

未来人机交互界面设计思路防止驾驶员分心

Business Insider旗下研究机构BI Intelligence最近做出评估预测，到2020年全球范围内销售的9200万辆汽车将使用与互联网连接的硬件设备。想象一下数以千万计的车辆应用系统每时每刻都在进行数据输入输出，将带来怎样的用户交互体验。共享数据的辅助下，行车安全性可以得到大幅度提升，提前的线路规划策略也能够降低燃油消耗量。系统是如何判断哪些数据对驾驶者或者车载系统本身有所帮助，那些相关性不大的数据是否会让行车驾驶更复杂、更麻烦、更危险？系统被设计怎样通过人机交互界面（HMI），向驾驶者和乘客呈现有用信息，是衡量未来车载数据交互设备最重要的标准。如果没有一个直观的解决方案和设计理念，车载

[汽车电子]

华为推出全新AI芯片叫板NVIDIA

说起华为的芯片我们首先想到的就是麒麟980、麒麟970，其实华为不只有麒麟处理器，也一直在研发AI芯片。在刚刚举行的华为全链接2018 (HUAWEI CONNECT 2018)大会上，华为轮值CEO徐直军公布了华为全栈全场景AI解决方案，并正式推出了昇腾910、昇腾310两款AI芯片。华为全栈全场景AI解决方案华为昇腾910 华为全联接大会2018主题为“+智能见未来”，主要围绕人工智能技术。那么，华为发布的这两款AI芯片到底有多强呢？单芯片计算密度最大的华为昇腾910的半精度算力达到256 TFLOPs，比目前最强的英伟达V100的125 TFLOPs高出了一倍！昇腾910采用台积电

[嵌入式]

华为推出全新<font color='red'>AI</font>芯片叫板NVIDIA

ARM处理器、X86处理器和AI处理器的区别

目前主要的处理器架构有： X86: Intel, AMD, 海光, 兆芯 ARM: 华为，飞腾，华芯通，Cavium，Ampere，富士通，亚马逊 POWER：IBM, 中晟宏芯 MIPS：龙芯 Alpha：申威 X86处理器 X86架构（The X86 architecture）是微处理器执行的计算机语言指令集，指一个intel通用计算机系列的标准编号缩写，也标识一套通用的计算机指令集合。 ARM处理器 ARM（Advanced RISC Machines）一个32位元精简指令集(RISC)处理器架构，ARM处理器广泛地使用在许多嵌入式系统设计。ARM处理器的特点有指令长度固定，执行效率高，低成本等。

[单片机]

ARM处理器、X86处理器和<font color='red'>AI</font>处理器的区别

英特尔和Altera在嵌入式展上发布专为AI打造的边缘和FPGA产品

全新的边缘优化处理器和FPGA在零售、工业和医疗保健等边缘计算市场中推动AI无处不在今天，英特尔及其子公司Altera在嵌入式展（Embedded World）上，宣布推出全新边缘优化处理器、FPGA以及市场就绪的可编程解决方案，致力于将强大的AI功能扩展到边缘计算。这些产品将为适用于零售、医疗保健、工业、汽车等行业的人工智能边缘设备提供动力。英特尔公司副总裁兼网络与边缘解决方案事业部总经理Dan Rodriguez表示，“下一代英特尔边缘优化处理器与独立GPU，可发挥强大AI功能，从而助力企业将AI与计算、媒体和图形工作负载更加无缝地结合。从制造业到医疗保健行业，英特尔凭借其丰富的边缘AI经验，及边缘就绪芯片

[网络通信]

英特尔和Altera在嵌入式展上发布专为<font color='red'>AI</font>打造的边缘和FPGA产品

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！