LSTM之父,现已加入鬼畜全明星,“他为啥没得图灵奖,太不公平了!”
鬼栗子 发自 凹非寺
量子位 报道 | 公众号 QbitAI
自从机器学习三巨头Hinton、LeCun、Bengio得了图灵奖,有个人就被玩坏了。
他叫Juergen Schmidhuber,还有个更通俗的名字,是LSTM之父。
(LSTM,长短期记忆,是一种重要的机器学习方法,可以学习长期信息。)
那时,图灵奖的消息下面,整座楼都在呼喊他的名字。
现时不同了,有人为了更好地应援 (误) ,帮他写了首LSTM之歌:
素材来自一次TED X演讲。
也许不像B站鬼畜区的选手那样专业,但论洗脑,并不逊色。歌词大致如下,请搭配视频食用:
Has anybody never heard of the LSTM?
有谁没听过LSTM?Has anybody never heard of the LSTM?
有谁没听过LSTM?Has anybody never heard of the LSTM?
有谁没听过LSTM?Human level intelligence.
人类级别的智能。The LSTM is a little bit like your brain.
LSTM有点像你的脑子。learns a little bit here and learns a little bit there.
这里学一点,那里学一点。And my first publication on that dates back 30 years, 1987.
我在这上面第一次发表论文是30年前,1987年了。The long short term memory.
长期、短期的记忆。Another industrial revolution.
又一场工业革命。Many many many, many many many people are listening.
很多多多多多多人都在听。Trillions of replicating humans make the universe intelligent.
几千亿个复制的人类,加在一起宇宙就智能了。Animal-like AI.
动物一样的AI。Everything is going to change.
万物都将改变。Has anybody never heard of the LSTM?
有谁没听过LSTM?Has anybody never heard of the LSTM?
有谁没听过LSTM?Has anybody never heard of the LSTM?
有谁没听过LSTM?LSTM working for Facebook.
LSTM为Facebook服务。Is anybody on Facebook?
有谁在用Facebook?LSTM working for Facebook.
LSTM为Facebook服务。Is anybody on Facebook?
有谁在用Facebook?The long short term memory.
长短期的记忆。A new type of life is going to be mandatory.
一种新的生命,将成为必须。The long short term memory.
长短期的记忆。A new type of life is going to be mandatory.
一种新的生命,将成为必须。billion human brains, taken together.
十一人的脑子,放在一起。I have no doubt in my mind.
我丝毫没有怀疑。Is anybody doing that?
有人在做这件事么?I have no doubt in my mind.
我丝毫没有怀疑。Is anybody doing that?
有人在做这件事么?(最后的洗脑循环没听清)
甚至有一种,在迪斯尼电影里,主角走着走着唱起歌来的错觉。这支小曲在推特拿下了超过300赞:
鬼畜作者说:“我们觉得Schmidhuber没得图灵奖太不公平了。为了让他振作起来,就搞了这首歌。”
那么,世界上有那么多没得图灵奖的大佬,为什么单单LSTM之父被玩坏?歌词又为什么单单点名了Facebook呢?
“我的开创性工作”
其实近些年,LSTM之父常常因为“自己的开创性工作没得到足够的尊重”这类激烈的表达,引起世界的瞩目。
所以,这里先描述一下,LSTM是怎样一项开创性的工作。
就像歌里唱的那样,LSTM是长短期记忆的简称,和人脑的记忆有些类似。
它是一种特殊的循环神经网络 (RNN) ,最初在1997年发表。那么,特殊在哪里呢?
普通RNN是能把先前学到的信息,用到现下的任务里;但距离越远的信息,就越难关联起来。引用Christopher Colah博客里的例子:
预测“the clouds are in the sky”里最后一个词“sky”的话,不太需要联系上下文;
如果要预测“I grew up in France… I speak fluent French”里的“French”,普通RNN知道该填一种语言,但不太容易联系到“France”这个遥远信息了。
而LSTM就是为了解决这个问题而生的。它和普通RNN的区别是:
普通RNN的循环部分只有一层 (tanh) ,只依状态h的改变而改变,所以对短期的输入敏感:
△ 普通RNN,来自Colah博客
而LSTM的循环部分,又加入了c状态,保存长期状态。于是,循环部分变成了4层,来决定短期状态到底对长期剧情产生多大的影响。
△LSTM,来自Colah博客
这样,LSTM就可以学习更长的序列了。一个长期困扰学界的问题,便是这样解决的。
1997年发表的那篇论文,作者是Schmidhuber (二作) 和他的学生Hochreiter (一作) 。
后来,LSTM被多方发扬光大,如今已是机器学习领域不可缺少的方法了。
谷歌把LSTM用在语音识别和谷歌翻译上;苹果的Siri和亚马逊的Alexa背后也都是LSTM。
Facebook一年要用LSTM做45亿次自动翻译。这是2017年的数据。
△ 来自Reddit用户@TheOverachiever
“没得到足够的重视”
可这门技术越是重要,作为发明者之一的Schmidhuber越是觉得,自己没有得到足够的重视。
毕竟,机器学习三巨头早已名满天下,而他的名号远不及这几位的响亮。
远离宇宙中心的他,在瑞士南部提契诺州卢加诺区曼诺的达勒·莫尔AI研究所 (IDSIA) ,担任联合主任。
2015年,为了纪念人工智能60周年,三巨头合写了一篇深度学习综述,发表在Nature上。
正当大家仔细品读的时候,这篇文章收到了来自Schmidhuber的反对:
他列出了九条问题,批评三巨头的综述没有足够尊重前人的成果。
比如,没有提到Alexey Ivakhnenko,他和小伙伴们在1965年发表了世界上第一个有效的深度学习网络。
比如,写到反向传播 (BP) 的时候,只引用他们自己的论文,和少数几篇其他论文,忽略了60年代早期Bryson等人的论文,后来的BP就是从那时的成果发展来的。
比如,没有提及Schmidhuber本人在RNN上面的工作。
很快,三巨头中的LeCun回怼了远在欧洲的同行。主要理由是,比起那些给出想法的人,更大的功勋应该属于把想法用到机器学习上的人:
1986年以前,有很多人早就用过链式法则了,也有很多人发现,multi-step function里可以把雅可比矩阵反向乘在一起。
但能不能说高斯、莱布尼茨、牛顿、拉格朗日都发明了反向传播?
不!他们并没有把这个想法用到机器学习上,没有实现。
LeCun说,很多人也想过用链式法则训练一台机器,但反向传播直到80年代才真正发明出来。
他还说:
Juergen太想得到认可了,把各种东西都说成是他的功劳,好多并不是他该得的。
这就导致每场talk之后他都要站出来,把别人刚刚展示的东西说成他自己的,提出的方式还常常不太礼貌。
△ 他成了梗:“你们写的所有LSTM,都是我的。”
LSTM之父与三巨头的对立面,就形成了。
当三巨头一起拿下图灵奖,吃瓜的众人又想起了这场有趣的战斗,盖起了一座楼,又一座楼。
还有的人类,不满足于水论坛、答“知乎”这种简易的活动,选择拿起鬼畜的武器,才有了大家听到的LSTM之歌。
歌词特意点名Facebook,也是为了纪念吧。
毕竟,歌名只有战役的一方,另一方的主要发言人LeCun,已是Facebook首席AI科学家了。
One More Thing
告诉你一个秘密,尝到鬼畜甜头的小伙伴,才不会做一首歌就满足。
这里是另一首,节奏更加激烈,歌词也有些奇异:
你大概听到了这样的句子:
“有三个人被判了死刑。”
“你们的遗言是什么?”
仿佛是在说:
参考资料如下。
Colah的博客:
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
零基础入门深度学习(6) - 长短时记忆网络(LSTM):
https://zybuluo.com/hanbingtao/note/581764
看Juergen Schmidhuber论战LeCun、Bengio和Hinton:
https://blog.csdn.net/happytofly/article/details/80120442
《纽约时报》报道:
https://www.nytimes.com/2016/11/27/technology/artificial-intelligence-pioneer-jurgen-schmidhuber-overlooked.html
喜欢就点「好看」吧 !