深度学习：人工智能的“神奇魔杖”（一）-电子工程世界

　　1.解密深度学习

　　1.1.人工智能的发展一直随同人工神经网络研究的进展而起伏

　　整个人工智能发展历史，几乎一直随同人工神经网络研究的进展而起起伏伏。近期引发人工智能新一轮热潮的深度学习，其名称中的“深度”某种意义上就是指人工神经网络的层数，深度学习本质上是基于多层人工神经网络的机器学习算法。

　　1.2.什么是人工神经网络

　　人类大脑神经的信息活动与目前的计算机相比有三个不同的特性：

　　第一，巨量并行和容错特性。人脑约有1000亿个神经元，神经元之间约有上万亿的突触连接，形成了迷宫般的网络连接，大量的神经元信息活动是同时进行的，而非目前计算机按照指令一条条执行。此外人脑的这种巨量并行特性也使得其具有极好的容错特性，坏掉一个晶体管就能毁掉一块微处理器，但是大脑的神经元每时每刻都在死亡。

　　第二，信息处理和存储单元结合在一起。目前计算机普遍采用冯洛伊曼架构，存储器和处理器分离，通过总线传递数据。随着处理的数据量海量地增长，总线有限的数据传输速率被称为“冯·诺依曼瓶颈”，严重影响计算机的计算效率和功耗，人脑信息处理和存储单元结合在一起，拥有极低的功耗（约20W左右）。

　　第三，自组织自学习功能。大脑在与外界互动的同时也会进行学习和改变，而不是像现在计算机遵循预设算法的固定路径和分支运行。

　　基于以上几点不同，人们一直尝试模仿人类大脑神经元的信息活动机制来设计算法：信号通过突触进入神经元细胞，神经细胞利用一种方式把所有从树突上突触进来的信号进行相加，如果全部信号的总和超过某个阀值，就会激发神经元细胞进入兴奋状态，这时就会有一个电信号通过轴突发送出去给其他神经细胞。如果信号总和没有达到阀值，神经细胞就不会兴奋起来，不会传递信号。

　　简单的人工神经元数学模型就是让每一个输入到神经元的信号加权求和，相加后如果超过设定的阈值，就输出“1”，没有就输出“0”。这样若干个最简单的神经元输入输出相连接，就构成了复杂的人工神经网络。

　　通过训练，人工神经网络能实现基本分类功能。比如输入一张狗的图片信号，假定输出1表明计算机判断这是一只狗。我们首先用标记过的狗的图片输入人工神经网络进行训练，如果输出的结果是0，就调节每个输入信号的权重等参数，使得输出为1，这样大量标记过的狗的图片训练后，人工神经网络就自己掌握了判断狗的特征，并且具备了泛化能力：我们输入一张它从未见过的狗的图片，它也能识别出来这是一只狗，输出1。

　　通过人工神经网络的原理探究我们可以总结以下结论：

　　1、人工神经网络算法能够从输入的大量数据中自发的总结出规律。人工神经网络算法与传统计算机软件不同，并不要人为的提取所需解决问题的特征或者总结规律。它能够从输入的大量数据中自发的总结出规律，自适应调整自身结构从而举一反三，泛化至从未见过的案例中；

　　2、人工神经网络最基本的单元功能是分类，所以在分类识别是最直接的应用。以百度为例，其深度学习应用包括搜索、用户画像、语音、图像四大方向，本质上都是实现的分类识别的功能。

　　3、人工神经网络从最基本的单元上模拟了人类大脑的结构和运行机制（虽然目前还是低级的模仿），理论上讲人脑能够实现的智能它应该也都能实现。数学上也证明了用3层以上人工神经网络模型，理论上可逼近任意函数。

　　1.3.深度学习迅猛发展的历史背景

　　深度学习名称的由来。人工神经网络算法在60年代曾经遭遇低谷，著名人工智能专家明斯基当时提出了人工神经网络的两个局限性：

　　1、单层的人工神经网络甚至连最简单的异或运算都无法实现；

　　2、多层更复杂的人工神经网络当时的计算能力却无法支撑。

　　20世纪90年代开始，随着处理器计算能力突飞猛进和云计算技术使得大量计算机并行计算成为可能后，限制大规模人工神经网络的计算能力瓶颈开始逐步消除。即便如此，主流机器学习界对于人工神经网络仍然兴趣寡然，一直坚持人工神经网络研究的加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton后来为了改变大众对于人工神经网络的长期的消极态度，干脆将其改名为深度学习（deeplearning），而其多层抽象的数据学习过程一定程度上借鉴了人类的视觉机制。

　　一篇论文引发新的浪潮。2006年，GeoffreyHinton和他的学生RuslanSalakhutdinov在国际顶级期刊《科学》上发表了一篇文章，被认为是深度学习取得突破的重要节点。这篇文章实质上一是讲明了深度学习在描述数据本质上广泛的应用前景，二是给出了多层深度神经网络的很好的训练方法，让大众充分认识到深度学习大规模应用的时代开始来临，开启了深度学习在学术界和工业界的浪潮。而GeoffreyHinton连同他的实验室DNNresearch很快被谷歌收购。

　　深度学习在谷歌各项业务中迅速应用效果惊人。在谷歌内部，深度学习从少数的产品组应用起步，一开始就取得了非常大的突破（首次应用到语音识别错误率就降低了30%），更多的团队开始采纳深度学习算法，目前谷歌内部使用深度学习的产品有：安卓、Apps、药品发现、Gmail、图片理解、地图、自然语言、图片、机器人、语音翻译等。全球著名的谷歌大脑其实质上就是一个大规模的人工神经网络，它实现了对谷歌各项业务的智力支撑。

　　优异的深度学习算法和人才、丰富的数据资源、强大的计算能力被认为是在深度学习领域取得突出成绩的三个条件，谷歌三者兼具，所以在引入深度学习后，谷歌率先取得全球瞩目的成就，更激发了整个产业界对于深度学习的追逐，从而开启了这一轮人工智能热潮。

　　1.4.深度学习技术为何引领这一轮人工智能的浪潮

　　第一，深度学习首先直接应用于多个通用基础功能模块：语音，文字，搜索词，图片，视频，标签，实体，短语，音频特性等，能够在多个领域具备通用性。

　　第二，深度学习区别于传统机器学习算法，不需要人为提取数据特征的环节，具备非常简单的“端到端”训练特性，能够快速迁移到各个领域，因而具备极为广泛的应用空间；

　　第三，深度学习作为一种数据驱动的机器学习算法，其训练效果能够随着数据量的增长显著提升，在大数据时代将发挥更大的作用。

　　实质上人类很多智能或者技能都是先通过学习经验积累（即可抽象为大量数据训练的过程），再举一反三应用到其他领域（泛化至其他输入数据），这一点跟深度学习的基本功能非常类似，所以随着深度学习的进一步完善，人类诸多需依靠经验积累的能力都可以逐步依靠深度学习来实现。

　　2.深度学习的直接应用

　　2.1.语音识别

　　谷歌内部第一个部署深度神经网络的小组首先将深度学习引入语音识别领域，一开始的版本就把语音识别错误率降低了30%，国内的科大讯飞将深度学习引入，语音识别错误率近几年明显降低。

　　2.2.图像识别

　　2.2.1.深度学习推动计算机图像识别率大幅提升

　　ImageNet图片库有100多万张图片，是计算机视觉领域最大的图片库，包含1000种不同分类，每一类有1000张图片。在深度神经网络使用之前，最好的识别错误率记录是26%，2014年Google错误率降低到6.66%取得冠军，到2015年错误率下降到3.46%，甚至低于人类的错误率（人类花了24小时训练后错误率是5.1%）。

　　2.2.2.计算机视觉已经成为最吸引投资的人工智能技术方向

　　根据艾瑞咨询统计，目前在人工智能领域，超过一半的技术类企业投资是在计算机视觉方面。

　　2.2.3.深度学习推动多个领域图像识别广泛应用

　　1、人脸识别领域：深度学习技术推动下，人脸识别可以实现任意脸部遮挡及视角下的实时检测，一次性克服了人脸检测中的几项难题：侧脸、半遮挡、模糊人脸，极大提升了各种现实情况中的人脸检出效果。同时可以识别性别、年龄、表情及多种脸部生理特征，不仅可以准确识别照片中人物的性别和年龄，也提供表情、颜值（美貌指数）、戴眼镜、化浓妆、涂口红、戴帽子、头发颜色、胡须样式等超过40种属性，平均准确率超过90%，年龄预测平均误差小于3岁。

　　2、视频监控领域：基于深度学习的行人检测算法能够在各类遮挡的情况下精确找出行人位置，并能够进一步分析行人姿态和动作，可应用于交通监控、辅助驾驶、无人驾驶等。可以在行车场景、交通监控场景、卡口场景中检测多种不同角度的车辆，并同时给出车牌号码、汽车品牌、型号、颜色等物理特征。

　　3、图像搜索、场景识别：可以实现语义驱动的互联网规模图像搜索及排序、拥有千类物体的集合上达到世界最高准确率的物体检测算法、可在上百类的室内外场景图像中识别显著场景元素，检测和识别在任何地点的任意文字。

　　4、图像及视频编辑：通过深度学习可以实现实时超分辨率重构、实时降低图像压缩噪声、基于内容的图像质量评价方法得到最美观的图片等功能。

　　5、移动互联网领域：利用深度学习技术，Faceu、微博相机、小米MIUI的人脸识别分类相册等移动互联网产品开始涌现。

　　2.3.搜索引擎

　　百度在世界上首次将深度学习引入搜索引擎之中，显著提升了搜素引擎的满意度，这也是迄今为止深度学习作用于自然语言最成功的例子。同时百度凤巢系统也首次将深度学习引入广告系统，显著提升了点击转化率。

　　谷歌在2015年10月份正式公开RankBrain这一引入了深度学习的人工智能搜索引擎算法，RainBrain已经成为搜索排序时第三大重要的指标，在搜索排序时其指标优先级超过了其他数百项指标。RankBrain是基于深度学习的人工智能算法，它在为用户挑选所需要的搜索答案时甚至拥有了近乎“直觉”式的准确。Google内部曾让做算法的工程师人工去猜测搜索算法会选择哪个页面作为排名第一的结果，其准确率为70%，然后RankBrain去做了同样的事情，准确率达到了80%。

　　2.4.邮件自动回复

　　Gmail组开发了一个系统能够去预测邮件回复的深度学习应用。第一步就是训练小量模型去预测如果消息是某一类的，怎么做简短回复。如果是一个更复杂的问题，则将消息作为一个序列，尝试预测序列的响应语。这样经过大量数据训练的人工神经网络就学会了自动回复消息。

　　2.5.机器翻译

　　近年来，随着深度学习的进展，机器翻译技术的到了进一步的发展，翻译质量得到快速提升，在口语等领域的翻译更加地道流畅。深度学习的技术核心是一个拥有海量结点（神经元）的深度神经网络，可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后，在网络中层层传递，转化为计算机可以“理解”的表示形式，再经过多层复杂的传导运算，生成另一种语言的译文。实现了“理解语言，生成译文”的翻译方式。广泛应用于机器翻译的是长短时记忆循环神经网络，很好地解决了自然语言句子向量化的难题，使得计算机对语言的处理不再停留在简单的字面匹配层面，而是进一步深入到语义理解的层面。

　　基于深度学习方法的翻译发展经历三个过程：

　　1)“编码-解码新框架”（NalKalchbrenner，PhilBlunsom，2013）

　　对源语言句子使用编码器（卷积神经网络）将其映射为一个连续、稠密的向量，然后再使用解码器（递归神经网络）将该向量转化为目标语言句子；其优势在于使用递归神经网络能够捕获全部历史信息和处理变长字符串，然而因为在训练递归神经网络时面临着“梯度消失”和“梯度爆炸”问题，所以长距离的依赖关系依旧难以得到真正处理。

　　2)引入长短期记忆（IlyaStuskever等，2014）

　　该架构中，无论是编码器还是解码器都使用了递归神经网络。同时，在生成目标语言词时，解码器不但考虑整个源语言句子的信息，还考虑已经生成的部分译文。该方法通过设置门开关解决了训练递归神经网络的问题，能够较好地捕获长距离依赖。此外，引入长短期记忆大大提高了端到端机器翻译的性能，取得了与传统统计机器翻译相当甚至更好的准确率。

　　3)基于注意力的端到端神经网络翻译（YoshuaBengio研究组，2015）

　　当解码器在生成单个目标语言词时，仅有小部分的源语言词是相关的，绝大多数源语言词都是无关的。因此为每个目标语言词动态生成源语言端的上下文向量，而不是采用表示整个源语言句子的定长向量能很好地提升翻译效率，这便是基于内容的注意力计算方法。

　　谷歌运用深度学习开发出一款自动翻译应用，能够将手机拍摄的图像中的文字自动翻译并且直接覆盖在原有图像之上。

　　2.6.杀毒软件

　　百度近期推出了4.0杀毒系统：慧眼引擎。这是百度杀毒和百度深度学习研究院（IDL）共同研制的深度学习智能引擎。百度宣布这是全球首次将深度学习技术应用在客户端，独创了深度神经网络查杀技术。通过神经网络提供的大量已知在案的恶意软件训练，杀毒就和识别人脸一样，逐渐学会自己识别病毒。根据百度公布的第三方测试数据，慧眼在不依赖其他引擎辅助的情况下，误报率<0.1‰，而在一个月不升级模型库的情况下，检出率也不会下降，检出能力半衰期长达7个月。

引用地址：深度学习：人工智能的“神奇魔杖”（一）

上一篇：小巨蛋无人机众筹破亿消费无人机未来一片红海
下一篇：阿里云最新品牌大片：揭开对话人工智能的序幕

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■免费申请 | 上百份MPS MIE模块，免费试用还有礼！

■PI 电源小课堂|无 DC-DC 变换实现多路高精度输出反激电源

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■Follow me第二季第4期来啦！与得捷一起解锁蓝牙/Wi-Fi板【Arduino Nano RP2040 Connect】超能力！