QbitAI量子位

文章数:10350 被阅读:146647018

账号入驻

Hinton再挖新坑:改进胶囊网络,融合Transformer神经场等研究

最新更新时间:2021-09-02 10:02
    阅读数:
晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

你还记得Hinton老爷子在2017年挖的坑吗?

胶囊网络的坑还没填完,刚刚他又挖了一个新坑。

近日Hinton提出了一个称为GLOM的假想系统,将一篇44页的文章发布在arXiv上——只有idea、没有实验,却引起AI界的广泛讨论。

更准确地说,GLOM又不完全是一个新坑,而是在胶囊网络的坑里继续挖了一铲子。

GLOM综合和这些年AI领域的诸多成果,将Transformer、神经场(neural field)、对比表示学习、蒸馏等技术与胶囊网络。

为了解决胶囊网络的缺陷,Hinton这几年来一直关注着计算机视觉领域的最新进展,希望用CV新理论中有价值的部分去改进它。

改进胶囊网络

当初,Hinton根据人类对图像的认知方法,提出了胶囊网络,用于改进CNN。

CNN过去是计算机视觉中的主力,但CNN有很多缺点,比如它无法理解部分与整体之间的关系。

比如将人脸五官打乱,CNN仍然会因为识别到不同元素,而将它视为人脸。

而且CNN也很难从不同视角去理解同一个物体。

Hinton认为,神经网络应该使用识别局部的“胶囊”,而不是使用总结全局特征的单标量输出“神经元”。

经过全球学术界3年多的努力,胶囊网络取得了一些成功,主要是在小型数据集的有监督和无监督学习中,但是还没有成功扩展到更大的数据集上。

Hinton反思了胶囊网络的缺点,提出了GLOM。

GLOM借鉴了心理学的研究成果,即人类识别图像是将场景解析为整体与部分的层次结构,并且对它们的空间关系进行建模。

GLOM的设计思路

GLOM的体系结构如下图所示。图中列出了L层级与另外两个相邻层级之间的自下而上、自上而下和相同层级之间的交互。

其中,自下而上的蓝色箭头和自上而下的红色箭头,是由具有几个隐藏层的两个不同的神经网络实现的。

这些网络在不同层级之间可以有所不同,但是它们可以在列之间和跨时间步共享。

对于静态图像,绿色箭头可以简单地按比例缩放残差连接,实现每个层级嵌入的时间平滑。

对于视频,绿色箭头可以是神经网络,该神经网络基于胶囊的多个先前状态来学习时间动态。

在下面的六组不同最低层级嵌入中,它们都指向同一个目标,且场景级别嵌入未知。

图中所示各个层级上的相同向量的孤岛表示一棵解析树。但是,特征孤岛比短语结构语法要强大得多。

在GLOM中,场景级自上而下的神经网络,将场景矢量和图像位置转换为该位置的目标矢量。该矢量包括有关目标相对于相机的3D姿态的信息。属于同一目标的所有位置都被赋予完全相同的目标级向量。

然后,神经网络将目标级向量加一个位置,转换为适合该位置的部分向量,往下依此类推。

这样,作用在完全相同的人脸矢量上的自上而下网络,能够预测某些位置的鼻子矢量和其他位置的嘴矢量。

与其他方法对比

那么,GLOM相比传统的CV方法有哪些优点呢?

Hinton认为,与胶囊网络对比,GLOM的主要优势是,它避免了在每个层级将神经元预先分配给一组离散的可能部分的需求。

此外,GLOM的还有不需要动态路由的优点,用于形成岛的聚类形成过程,也比胶囊模型中使用的聚类过程好得多。

与Transformer对比,GLOM每层的权重都相同,通过在一定程度上使用嵌入向量作为查询、键值,极大地简化了注意机制。

在GLOM中,原本Transformer的多头被重新设计为用于实现部分整体结构的多个层级,并且多头之间的交互高度结构化,某个层级仅与相邻层级进行交互。

网友怎么看

对于这篇44页仅提供idea的论文,不同网友表现出了完全相反的看法。

一些实用派认为,论文没有实验,甚至都没有描述完整可运行的系统,看到开头声明就被劝退了。

也有人认为,能看到顶尖科学家以这种形式表达自己的想法很好,可以深入了解他们的思维过程。最重要的是,Hinton的关注,可能会加快这个问题的解决,研究人员也会从中受到启发。

最后,来自ETHZ的Yannic Kilcher博士已经在B站上传了对GLOM的详细解读,视频时长超过1小时,有兴趣朋友不妨去看看。

论文地址:
https://arxiv.org/abs/2102.12627

参考链接:
[1] 
https://pechyonkin.me/capsules-1/
[2] https://www.cs.toronto.edu/~hinton/
[3] https://www.bilibili.com/video/BV1Qz4y1y7ea
[4] https://www.reddit.com/r/MachineLearning/comments/lszl9c/r_new_geoffrey_hinton_paper_on_how_to_represent/

—  —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。


点这里

推荐帖子

纽扣电池放电的一些疑问
做了点东西,需要用5个mA供电,网上查了查说CR2032电池现在能供到10个mA一下都没问题了,我当时就还真信了..买回来一试简直就是闲扯啊!五分钟,电压就降到2.6V以下了.输出电流3.4mA左右是最大了.但是现在有个问题,输出电流很小,那能量都耗散在什么地方了?也没有感觉到明显的发热啊纽扣电池放电的一些疑问路过,来学习的~电流太小,应该不会有明显发热的地方CR2032标称电压为3.0V,低点电压2.0V额定容量一般在200mAh不等电池已经用旧了吧?mark一下貌似电池分
astwyg 模拟电子
STR7和STR9系列微控制器配套使用的USB软件开发工具
http://www.stmicroelectronics.com.cn/stonline/press/news/year2007/p2058.htm此消息曾经在本版面发布过——ST的USB开发工具支持STR7和STR9系列微控制器,但没引起注意,再次转发如下:STR7和STR9系列微控制器配套使用的USB软件开发工具郁闷,居然没价格,版主把最重要的东西给忘了请点击给出的ST新闻链接,再点击新闻中的链接,即可下载
fly0598 stm32/stm8
嵌入式还是单片机?
各位大虾。小弟我刚学单片机不到一个月,就有好几个老师说单片机不必太深入,建议我直接上ARM。他们说单片机学的人多,而相反嵌入式的就业前景比单片机好多了。。我现在就是非常犹豫啊。都不知道怎么办。到底该学什么好啊?。请各位大虾帮我分析分析当前单片机和嵌入式的前景。顺便给小弟支支招。。。嵌入式还是单片机?一个智能化产品,内装着微处理器,就是个嵌入式系统了。这个内装的微处理器很可能用的是一块单片机,而该单片机正好采用了ARM结构!试问,你还咋分嵌入式、单片机和ARM呢?单片机学好了也是
roseswing 嵌入式系统
Quartus里ALTLVDS模块和GXB的区别在哪里
因为以前没有接触过ALTERA收发器,不知道刚开始的时候IP核怎么选。比如ALTLVDS_RX、ALTLVDS_TX和GXB这两种模块的区别是什么,实际在上板子的时候应该怎么选择?CyclongV里面好像没有GXB了,只有TranscieverIP核了,这和之前的GXB模块是一个概念吗?谢谢大家了Quartus里ALTLVDS模块和GXB的区别在哪里
robertslyh FPGA/CPLD
Multisum 12.0 和13.0破解安装,以及安装包
前几天买了SSD,一重装了系统,一些软件就不能用了,所以花时间又重新装了一些软件,发现有的软件安装还是挺繁琐的,对于之前完全没有接触过的新手,也想起之前自己在网络上找资源的艰辛,不多说,我就是来送福利的,另附Multisum12.0Multisum13.0Timson,如果您要查看本帖隐藏内容请回复的安装包和破解说明汉化教程。Multisum12.0和13.0破解安装,以及安装包找了很久,学习下载多多学习学习:pleased:刚好才装遇到此事,看来福利来了,
logitech66 模拟电子

最新有关QbitAI量子位的文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: TI培训

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2021 EEWORLD.com.cn, Inc. All rights reserved