中国小伙CVPR 18论文遭质疑:同行难复现,要求评议组撤稿
安妮 发自 凹非寺
量子位 出品 | 公众号 QbitAI
国庆前的这场学术风波,比以往时候来得都猛一些。
昨天,ID为p1esk的网友在Reddit论坛提出,国际顶会CVPR 18的接收论文Perturbative Neural Networks(扰动神经网络)有点不对劲。
这篇论文自称提出了一种轻量且高效的模型,可以当作卷积神经网络的替代品,且准确率高达90.53%。在多次动手实操之后,网友p1esk发现得到的最高准确率仅为85.91%,结果根本无法复现。
论文复现难,这个存在于整合学术圈的普遍且严重的问题,让整个行业讨厌和头大。浪费了别人大把时间,只能闻但吃不到,不知困扰着多少长江后浪。
p1esk觉得,这篇几乎可以宣判无效的论文不能再浪费大家时间了,应该被即刻撤回。
仿佛往论坛深水区投下一颗炸弹,该学术风波顷刻间引发了大量讨论。
“打折”的准确率
问题的焦点,就在论文提出的准确率计算方法上。
在论文Perturbative Neural Networks中,研究人员成提出的CNN替代品扰动神经网络(PNN),消除了传统意义上的卷积,并将这种响应计算为一种加权线性组合,同时输入了非线性激活的加性噪声(additive noise)扰动。
论文Perturbative Neural Networks
地址:https://arxiv.org/abs/1806.01817
论文作者通过分析和实践,证实了扰动层能有效替代传统的卷积层,在MNIST、CIFAR-10、PASCAL和ImageNet等视觉数据集中测试时,参数较少的PNN和标准CNN的运行效果相当。
看到PNN模型方法新颖、结果优异、还提供了相关代码,网友p1esk觉得很有意思,也按照所说的方法尝试复现。在GitHub上,小哥分享了自己的复现结果。
复现前,p1esk先分析了论文作者的原始实现,发现在第一层网络中,原始实现应用了常规的卷积,但其余层用了大小是1的扇出,也就是每个输入通道都用了单一噪声掩膜(noisy mask)。
随后,p1esk发现原始实现的最大问题:精确度计算方法不正确。作者没有在测试数据集的全部示例上计算准确率,而是选择在每个批次中分别计算,并且应用的了平滑权重的神经网络。原论文作者计算的准确率,实际上=0.7*上个批次的准确率+0.3*当前批次的准确率。
一来二去,p1esk和原作者的实现结果就不太一样了:
当模型运行CIFAR-10数据集中的noiseresnet18时,原论文中的准确率为90.53%,而p1esk用修正后的方法得到的最高准确率为85.91%。
那么问题来了,这个开始就被误算的方法,到底有没有用?网友p1esk又进行了大量实验,想验证如果用噪声掩膜扰乱输入,是否会得到更好的结果。
为此,小哥搞了三个模型:一个减少了滤波器数量的基准模型,让参数数量和PNN差不多;一个除第一层外所有层都使用无噪音1×1卷积的模型;和一个除第一层外,所有层都用了扰动版1×1卷积的模型。
一番操作之后,小哥发现添加噪声掩膜比无噪声的等效“残缺”ResNet的改进不超过1%,无论如何应用噪声掩膜,使用1×1滤波器都会导致准确率下降。
最后,p1esk得出结论:论文中准确度计算方法不正确,且作者提出的方法无效,故论文没有意义。
不过目前来看,这些还仅是p1esk的一面之词,此时目前还尚无定论。
引发热议
p1esk的复现过程引来了多人围观,对于这件值得讨论的学术风波,大家的看法并不一致。
最先一波评论基于事件本身,不少网友感慨论文“难以复现”是当下科研面临的一大难题,自己深受其害。
也有针对p1esk本身质疑的质疑。网友alexmlamb研究了p1esk的复现方法后,觉得“PNN无效”的结论有些站不住脚,且复现中给出的实际准确率和报告中提到的准确率在100次迭代时相差并不多。
好消息是,事发之后,被质疑的团队没有装聋作哑,也很快站出正面回应了p1esk的质疑。
论文一作Felix Juefei-Xu(Reddit ID:katanaxu,后称Xu同学)首先感谢了网友为实现PNN做出的努力和提醒,目前团队正在彻底分析这项工作,在能提供进一步回应之前,完全肯定团队的工作。
对于网友指出的验证方法的问题,Xu同学承认了这中间的疏忽,并表示如果确实结果相差太多,团队会收回论文:
“在我们的可视化工具中默认了平滑函数是一个疏忽,目前我们已经修复了它,正在重新运行整个实验。我们将用更新后的结果更新arXiv论文和Github。如果实验结果表明我们的结果确实比CVPR版本中报道的差得多,我们将收回论文。”
针对网友的复现,Xu同学也提出了自己的看法:“综上所述,根据我的初步评估,在他的实现中,只要选择合适的#滤波器、噪声等级、优化方法,目前可以在CIFAR-10上实现90~91%的效果,而他选择的上述参数是85~86%。不过在没有看到他更多(的过程)时,还是先不多说了。”
△ 一作回复原文
中国学生
也是Xu同学的回应比较真诚和理性,随后赢得了不少网友的好评。
网友toadlion表示,虽然结果有误听起来让人有些失望,但一作的回应讲道理,是种正确的处理方式。
网友kugkfokj也赞同作者的回复,不过他觉得即使是结果有误也不应该收回论文。“科学不仅仅包含什么是正确有用的,也包含什么是行不通的,两者同样重要。”他说。
“每个人都会犯错误,如果可以节省他人的时间,那这个错误就是有价值的。”网友mikolchon说。
就连发帖提出质疑的网友p1esk,也赞扬了Xu同学等人的行为,他认为,作为科研人员,把自己的代码分享,本身就是学术圈里值得提倡的事情,而准确率计算方法的错误更像是一个“诚实的失误”。
其实,这个不避讳质疑的团队,第一作者还是一个中国小伙。
这篇论文来自CMU和密歇根州立大学的Felix Juefei-Xu,Vishnu Naresh Boddeti和Marios Savvides三人。
一作Xu同学是一名中国小伙。本科毕业于上海交通大学的电气工程专业,在CMU读研深造后,继而在CMU攻读电气与计算机工程博士学位,师从Marios Savvides教授,目前在CMU CyLab生物识别中心继续做研究。
△ Marios Savvides教授
一路走来,Xu同学也属于“别人家的孩子”。
在读高中时,Xu同学参加了当时热播的高中智力竞赛节目《SK状元榜》,获得了周冠军。次年,获得了上海优秀普通高中毕业生的荣誉称号。
△ 春妮主持的电视节目《SK状元榜》
随后,无论是全国大学生英语竞赛获奖,还是在外深造时在IEEE系列会议上获得的各类最佳论文,一路走来,Xu同学也算走得踏实。
One More Thing
一边是论文的复现困难,一边是作者的真诚回应。不知此事,你怎么看?
— 完 —
加入社群
量子位AI社群28群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态