观点 | 深度学习有偏见、有局限性，但谁也挡不住它的未来-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

我知道博客标题中使用否定词很奇怪，但是前几天有一波讨论正好相应于我正在思考的一些问题。这一切开始于 Jeff Leek 发表的一篇有关说明在小样本范围内使用深度学习的文章。要言之，他认为当样本较小时（这在生物领域很常见），带有少许参数的线性模型甚至比带有少量层和隐藏单元的深度网络性能更优。他继续展示了一个非常简单的带有十大信息特征的线性预测器，在使用大约 80 个样本在 MNIST 数据集中分类 0 和 1 时，性能比一个简单的深度网络更优。这促使 Andrew beam 写了一篇反驳文章（详见：小心训练模型，数据少也可以玩转深度学习），其中写道一个适当训练的深度网络能够完胜简单的线性模型，甚至仅仅使用非常少的训练样本。在争论期间，越来越多的生物医疗信息研究者开始采用深度学习处理不同的问题。hype real 或者线性模型就是我们需要的全部吗？正如往常一样，答案是看情况。在本文中，我将介绍几个机器学习的应用案例，其中深度学习在应用和处理先入为主的观念方面并没有太多实际意义，我认为正是这些先入为主的观念（preconception）阻碍了深度学习的应用，尤其是对于入门者来说。

深度学习的偏见
首先，让我们解决一些先入为主的观念，外行人已经将其误认为半真理。有两个大的先入为主的观念以及一个比较技术的先入为主的观念，这在某种程度上是对 Andrew Beam 关于「错误之见」的延伸。

深度学习可真正应用于小数据样本
深度学习的声望建立在大量数据之上（比如首个谷歌大脑工程向深度网络馈送了大量的 YouTube 视频），并且作为复杂算法运行大量数据以来一直被公开化。不幸的是，大数据和深度学习的关系也有时对反：一个深度学习不能应用于小数据样本的神话。如果你的神经网络样本数据很少，带有较高的参数样本比，表面上看很可能会出现过拟合。然而，如果只考虑给定问题的样本大小和维度，不管是监督学习还是无监督学习，这是凭空地建模数据，无需语境。很可能是这种情况，你有与问题相关的数据资源，或者某个领域专家可以提供 strong prior，或者数据的组织结构很特殊。在所有这些情况中，深度学习有机会成为一种有效方法，例如，可以为更大的相关数据集编码有用的表征，并将其应用在你的问题之中。其经典图示在自然语言处理中非常普遍，其中你可以学习大型语料库的词嵌入，并将其作为更小更窄语料库中的嵌入来完成有监督学习任务。极端地说，你可以联合一组神经网络学习一个表征和一个有效的方式以在小样本集中重复使用表征。这被称作 one-shot learning，并被成功用在诸多高维数据领域，比如计算机视觉和药物发现。

用于药物发现的 one-shot learning，引自 Altae-Tran 等人的论文。ACS Cent. Sci. 2017。

深度学习并不是一切的答案
第二个我听到最多的先入之见是 hype。许多准从业者希冀深度网络可以带给他们一个神秘的性能提升，仅仅因为神经网络在其他领域也行之有效。其他人从建模和操控图像、音乐、语言的工作中获得启发，并通过尝试训练最新的 GAN 架构猛冲进这个领域。hype 真实存在，且方式多样。深度学习在机器学习中一枝独秀，并成了数据建模的一件重要工具。深度学习的流行催生出了一些核心的框架比如 TensorFlow 和 PyTorch，它们出奇地好用，甚至在深度学习之外也是。超级巨星源自失败者的故事启发了研究者重拾以前被埋没的方法，比如进化策略和强化学习。但这无论如何不是万能药。除却没有免费午餐的考量，深度学习模型可以非常细微，需要小心、有时非常昂贵的超参数搜索、调试和测试（后文将有详述）。此外，在很多情况下深度学习并无太多实际价值，反而是更简单的模型效率更高。

深度学习不仅仅是.fit()
来自机器学习其他领域的翻译多多少少埋没掉了深度学习的一个方面。很多教程和入门材料描述深度学习模型由层级互联层（由节点构成）构成，其中第一层是输入层，最后一层是输出层。你可以使用随机梯度下降训练它们。也许在简短提及随机梯度下降如何工作以及什么是反向传播之后，大部分的解释聚焦在了神经网络类型的丰富上。优化方法本身需要很少的额外注意力，这很不幸，因为很可能相当一部分深度学习奏效的原因是由于这些特殊的方法，并指导如何优化它们的参数；以及如何分割数据以有效使用它们对于在合理的时间范围内获得良好卷曲至关重要。为什么随机梯度如此重要依然不得而知，但是一些线索正到处浮现。我最喜欢的一个是将该方法阐释为贝叶斯推理执行的一部分。本质上讲，每次当你做某些形式的数运算，你就在使用特定假设和 prior 执行一些贝叶斯推理。

随机梯度下降并不难，最近的工作表明该步骤实际上是一个马尔可夫链，在特定假设下有一个静态分布，可被看作是对 posterior 的变分近似。所以当你停止你的 SGD 并采用最后的参数时，你基本上是在从这一近似分布中采样。我发现这一想法很有启发力，因为优化器的参数通过这种方式发挥了很大作用。比如，由于你可以增加 SGD 的学习参数，马尔可夫链会变的不稳定直到找到大面积采样的局部极小值；即，你增加了步骤的方差。另一方面，如果你减少学习参数，马尔可夫链会慢慢近似更窄的极小值，直到它在严密区域内收敛；即，你增加了一个特定区域的方差。另一个参数，SGD 中的批大小，也控制着算法收敛的区域类型。对于小批的更宽广区域，以及更大批的更窄区域。

SGD 优选宽或窄的依赖于其学习率或批大小的最小值。

这一复杂性意味着深度网络的优化器成了第一等级：它们是模型的核心部分，和层架构同等重要。这种情况在机器学习的其他许多模型中并不常见。线性模型和支持向量机是凸优化问题，这些问题实际上没有太多差别，且只有一个真实答案。这就是为什么其他领域的人或者使用诸如 scikit-learn 等工具的人在没有找到带有.fit() 的非常简单的 API 时深感困惑。

深度学习的局限性
因此，什么时候深度学习确实不适合一项任务？依我看，以下几个主要场景中深度学习并不适用。

低预算或低承诺问题
深度学习模型非常灵活，有大量的架构和节点类型、优化器以及归一化策略。依靠应用，你的模型也许会有卷积层或者循环结构；它也许真的很深，或者仅有几个隐藏层；它也许使用整流线性单元或者其他的激活函数；它或许有 dropout，或许没有，并且权重很可能被归一化。以上只是一个部分列表，还有很多其他的类型的节点、链接甚至损失函数可以尝试。有很多超参数可以微调，很多架构可以探索，尽管训练一个大型的神经网络非常耗时。谷歌最近鼓吹其 AutoML 流程可自动找到最佳架构，但是需要超过 800 块 GPU 全力运转数周，这可不适合所有人去做。重点是训练深度网络在计算和调试方面成本很高，这种费用对于许多日常预测问题并没有任何意义，甚至调整小型网络速度也太慢。即使有足够的预算和承诺，首先作为基准也没有理由不尝试其他方法。你可能会惊喜地发现，线性支持向量机才是你真正需要的全部。

向一个普通听众解释和传达模型参数／特征重要性
深度网络之所以臭名昭著是因为它是一个黑箱，预测能力强大却无法被解释。即使最近有很多工具在一些领域表现显著，它们并不会彻底转向全部的应用。这些工具在你想要确保网络是否欺骗你时工作良好，这主要是通过存储数据集或者聚焦特定的假特征实现的。但是向深度网络的整体决策阐释预特征的重要性依然很困难吗？在这一领域，由于学习系数与回应存在直接关系，没有什么可以真正打败线性模型。这在向一般听众传递这些阐释时尤其关键。例如，内科医生需要整合所有类型的分散数据从而做出诊断。变量与结果之间的关系越简单和直接，内科医生对其利用就越好，并且不会低估／高估其价值。进而，在很多案例中模型的精确度并没有理论阐释那么重要。例如，一个策略决策者也许想要知道人口统计的变量对死亡率的影响，并且相比于预测精度，他很可能对两者关系的直接近似值更感兴趣。在这两种案例中，相对于更简单、更深入的方法，深度学习处于劣势。

建立因果机制
模型阐释的极端案例是试图建立一个机制模型，即，一个可以真正捕捉数据背后的现象的模型。好的实例包括试图猜测两个分子是否在一个特定的细胞环境中交互？或者假设一个特定的市场策略如何对销售产生实际影响。该领的专家认为，老式的贝叶斯方法不可替代；它是我们进行因果表征和推理的最佳方式。Vicarious 最近在这方面有一些杰出成果（https://www.vicarious.com/img/icml2017-schemas.pdf），证明了为什么这一更加原则性的方法可以在视频游戏任务中比深度学习泛化地更好。

从「非结构」特征中学习
这个有待讨论。我发现深度学习擅长的一个领域是为一个特定任务找到数据的有用表征。一个比较好的示例是上述的的词嵌入。自然语言有着丰富而复杂的结构，其可通过「语境-意识」网络被近似：每个词可表征为一个向量，它编码了其被使用最多的语境。使用在自然语言处理任务的大型语料库中学习的词嵌入有时可使另一个语料库中的特殊任务获得提升。然而，如果有问题的语料库是彻底非结构的，那么深度学习将毫无用武之地。例如，你正在通过查看关键词的非结构列表进行目标分类。由于关键词并不被用于任何特定结构，词嵌入并不可能帮助太多。在这一情况中，数据是真正的词包，表征对于任务也充足。一个反方论点也许是词嵌入实际上并没有那么昂贵，如果使用预训练的词嵌入，你也许可以更好地捕捉到关键词相似性。然而，我依然倾向于从词包表征开始，并查看我是否能够得到好的预测。毕竟，相比于对应的词嵌入槽，词包的每一个维度更容易阐释。

深度是未来
深度学习很热，资金充足，且发展飞快。当你在一个会议上读到一篇深度学习论文时，它可能是两三次迭代后的结果。这给我的上述观点提出了很大的注意：不久的将来，深度学习也许在一些场景中依然超级有用。阐释深度学习的工具变得越来越好。最近的软件（比如 Edward）融合了贝叶斯建模和深度网络框架（详见：深度概率编程语言 Edward：融合了贝叶斯、深度学习和概率编程），借助概率编程和自动变分推理，量化了神经网络参数和简单贝叶斯推理的不确定性。长远看，存在一个简化的建模词汇表，揭示深度网络可以具有的显著属性，从而减少需要测试的事物的参数空间。因此，继续刷 arXiv 吧，没准一两个月这篇文章已被迭代。

关键字：深度学习大数据 GaN 引用地址：观点 | 深度学习有偏见、有局限性，但谁也挡不住它的未来

上一篇：你会跨越伦理规范的束缚爱上机器人吗？
下一篇：十问OpenAI，马斯克人工智能的初心为何？方向在哪？

推荐阅读最新更新时间：2024-05-03 01:20

ROHM开发出可更大程度激发GaN器件性能的超高速栅极驱动器IC

~ 采用业界先进的纳秒量级栅极驱动技术，助力 LiDAR 和数据中心等应用的小型化和进一步节能 ~ 全球知名半导体制造商ROHM（总部位于日本京都市）开发出一款超高速驱动GaN器件的栅极驱动器IC“BD2311NVX-LB”。近年来，在服务器系统等领域，由于IoT设备的需求日益增长，电源部分的功率转换效率提升和设备的小型化已经成为重要的社会课题，而这就要求功率元器件的不断优化。另外，不仅在自动驾驶领域，在工业设备和社会基础设施监控等领域应用也非常广泛的LiDAR* 1 ，也需要通过高速脉冲激光照射来进一步提高识别精度。在这类应用中，必须使用高速开关器件，因此，ROHM在推出支

[电源管理]

ROHM开发出可更大程度激发<font color='red'>GaN</font>器件性能的超高速栅极驱动器IC

GaN Systems推出两款新型GaN D类音频放大器

新闻要点：凭借两个新的放大器模块和两个新的音频升压转换器设计，GaN Systems 现在提供了一个全面的解决方案，使跨市场的音频系统和设计人员能够混合和匹配设计，并最大限度地提高其应用于特定行业的性能。与硅相比，GaN 供电的音频可实现卓越的音质、更高的性能、更小且更高效的 D 类音频系统。 GaN Systems 立足于消费类、专业消费者和专业音响系统，现已扩展到快速增长的汽车、船舶和电池驱动车辆市场，使 GaN 的优势得到更广泛的应用。 GaN Systems 在快速增长的 D 类音频市场中处于有利地位，该市场预计2024 年将达到 36 亿美元。 GaN 功率半导体供应商GaN Systems日前发布了

[模拟电子]

可穿戴设备之父：大数据告诉你未来这个样子

大数据对于很多人来说并不陌生，这一说法常常在我们生活中也是屡见不鲜。但是大数据到底能够给我们带来什么样的价值呢？美国麻省理工的阿莱克斯•彭特兰（Alex Pentland）教授为我们提供了一份解答。 8月31日，百度邀请美国麻省理工学院MIT人类动力实验室主任，可穿戴设备先驱，福布斯全球七大权威大数据专家之一，阿莱克斯•彭特兰教授进行了一场 “大数据开启大未来”的主题演讲。其中涉及到，大数据未来可能在健康、金融、城市发展以及犯罪预测等多个领域的应用，为我们展开了一组数据书写的未来生活画卷。　　无处不在的可穿戴设备健康　　可穿戴设备是最近一个新兴的话题，谷歌眼镜、智能手表等的出现

[医疗电子]

GaN Systems在CES 2022上展示多种GaN创新应用

日前，在CES 2022展台上，GaN Systems展示了多项创新产品：来自戴尔、飞利浦、哈曼和其他市场领导者的世界上最小的快速充电 GaN 充电器和充电器。《时代》杂志 2021 年 100 项最佳发明之一，Syng Alpha Cell 扬声器和多种高性能音频解决方案。 LED 照明方面：Signify Philips 将 GaN 驱动器内置到 LED 灯泡中。电动汽车OBC车载充电器、牵引逆变器、DC/DC 转换器、电源模块等。 GaN Systems 已超越消费电子产品，进入汽车、工业、数据中心和可再生能源行业。除了更小、更轻、更高效和成本更低的电力电子产品之外，GaN 还成为减少公司对环境影响

[模拟电子]

云计算2.0时代：企业如何踏上“云化”之路

很多企业已经主动拥抱信息技术，加速企业由生产型向服务型转化。不管是制造业还是服务业，面对的一个不可逃避的趋势就是将云、人工智能和大数据有效结合，未来在云端用人工智能处理大数据。在数字化转型的热潮下，云计算开始步入全新的2.0时代。越来越多的玩家争相收割云计算红利。除了BAT(百度、阿里、腾讯)及其他互联网企业之外，传统IT企业也纷纷向云计算转型，就连圈外的房地产大佬万达集团也高调杀入云计算。 “人工智能、移动互联网的飞速发展，其真正的关键技术就是云计算。云计算处于供应链的底层，提供数据的存储，也提供技术的发展和需要。”近日在北京召开的2017中国信息技术主管大会上，亚马逊AWS首席云计算企业顾问张侠十分肯定地说

[网络通信]

深度学习：人工智能的“神奇魔杖”（一）

　　1.解密深度学习　　 1.1.人工智能的发展一直随同人工神经网络研究的进展而起伏　　整个人工智能发展历史，几乎一直随同人工神经网络研究的进展而起起伏伏。近期引发人工智能新一轮热潮的深度学习，其名称中的“深度”某种意义上就是指人工神经网络的层数，深度学习本质上是基于多层人工神经网络的机器学习算法。　　1.2.什么是人工神经网络　　人类大脑神经的信息活动与目前的计算机相比有三个不同的特性：　　第一，巨量并行和容错特性。人脑约有1000亿个神经元，神经元之间约有上万亿的突触连接，形成了迷宫般的网络连接，大量的神经元信息活动是同时进行的，而非目前计算机按照指令一条条执行。此外人脑的这种巨量并行特性也使得其具有极好的容

[机器人]

宏光半导体公布2022年全年业绩产品研发领域实现突破性进展

宏光半导体公布2022年全年业绩产品研发领域实现突破性进展持续加大力度完善第三代半导体GaN产业链香港, 2023年4月3日 - (亚太商讯) - 宏光半导体有限公司（「宏光半导体」，连同其附属公司统称「集团」；）宣布其截至2022年12月31日止年度（「年内」）之经审核全年业绩。年内，宏光半导体积极发展第三代半导体新业务，进一步加快氮化镓（「GaN」）的技术研发和应用步伐，并实现多个重要里程碑。本年度，由于第三代半导体业务仍处于投放及研发阶段，集团的收益贡献主要来自LED灯珠业务。 2019冠状病毒病（「新冠肺炎」或「疫情」）持续反复对中国经济造成严重负面影响；因各地实施封城措施导致工厂临时关闭，使集团

[半导体设计/制造]

氮化镓集成方案如何提高功率密度

氮化镓 (GaN) 是电力电子行业的热门话题，因为它可以使得80Plus钛电源、3.8 kW/L电动汽车(EV)车载充电器和电动汽车(EV)充电站等设计得以实施。在许多具体应用中，由于GaN 能够驱动更高的功率密度和具有更高的效率，因此它取代了传统的MOSFET晶体管。但由于GaN的电气特性和它所能实现的性能，使得使用GaN元件进行设计时，要面临与硅元件截然不同的一系列挑战。 GaN场效应晶体管包括耗尽型（d-mode）、增强型（e-mode）、共源共栅型(cascode）等三种类型，并且每种都具有各自的栅极驱动和系统要求。 GaN FET的内部结构每种GaN电源开关都需要适当的栅极驱动，否则在测试时就可能发生

[电源管理]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■PI 电源小课堂|无 DC-DC 变换实现多路高精度输出反激电源

■有奖直播报名:大联大世平集团&恩智浦 | AI 无所不在，单板电脑也可以

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■Follow me第二季第4期来啦！与得捷一起解锁蓝牙/Wi-Fi板【Arduino Nano RP2040 Connect】超能力！