神“脑补”!只要一段话,就知道你的说话手势 | UC伯克利
乾明 发自 凹非寺
量子位 报道 | 公众号 QbitAI
防不胜防!现在, AI只需要听你的声音,就能知道你说话手势了。
这项“脑补力”Max的新研究,来自UC伯克利大学等机构,被今年的学术顶级会议CVPR 2019收录。
在他们的研究中,只需要输入一段语音,就预测出了说话人的手势,基本没有什么违和感。
不信?看看美国知名脱口秀Last Week Night主持人Oliver就知道了,他的手势已经被AI研究透了。说话的时候,肩膀什么角度,手指如何挥动,预测得一清二楚。
而且,不仅仅是坐着的脱口秀主持人,他们的研究也覆盖了其他各种场景:
站着的脱口秀主持人,说话的手势比较豪放:
比如老师上课时,使用这样的手势:
看到这项研究之后,就有网友评论称,不知道它能不能预测川普的魔性手势?
也有人表示,还好这只是项研究,如果能够应用到现实中,那还了得?
以后打电话,一边在电话里说着爱对方,一边却搞着小动作,会暴露的。
怎么实现的?
手势,是人们在说话过程中自发发出的行为,用于补充语音信息,来帮助更好地传递说话人的想法。
通常情况下, 说话的时候,手势与话语都是有关联的。但想要从话语中获取手势信息,还需要学习音频和手势之间的映射关系。在实践中,还有不少麻烦:
首先,手势和话语是异步的,手势可以出现在相应话语前、后或者期间。
其次,这是一项多模态的任务,说话人在不同的场合,说同样的话,手势可能不一致。
而且,每个人说话时的手势也是非常特别的,不同的说话者倾向于采用不同的说话手势。
为了解决这些问题,研究人员提出了一种时间跨模态翻译的方法,采用端到端的方式将语音转换成手势,并使用了范围非常大的时间背景来进行预测,以此克服异步性问题。
他们建立了一个由10名说话人组成的144个小时的大型个人视频数据集。为了体现出模型的适用范围,说话人的背景不尽相同:有电视节目主持人、大学教师和电视上的福音传道者。
他们讨论的话题也跨越了很多话题,从死亡哲学、化学到摇滚音乐历史、时事评论以及阅读圣经、古兰经等等。
现在,这一数据集已经对外开放。
具体是如何从话语中预测出手势的呢?请看下图:
给定一段语音,通过翻译模型(G)预测说话人与话语匹配的手势动作(手和胳膊的运动)。
然后采用回归函数(L1)从数据中提出训练信号,并通过度抗性鉴别器来确保预测的只是在时间上与话语是一致的,并符合说话人的风格。
然后用一种现有的视频合成方法来生成说话人说出这些话时的样子。
整个卷积网络,由一个音频编码器和一个1D UNet翻译架构组成。音频编码器采用2D对数-梅尔频谱图作为输入,并通过一系列卷积对其进行下采样,从而产生与视频采样率相同的1D信号(15 Hz)。
UNet翻译架构随后通过L1回归损失学会将该信号映射到手势向量的时间堆栈。
之所以使用UNet架构进行翻译,是因为它的瓶颈为网络提供了过去和未来的时间上下文,允许高频时间信息流过,从而能够预测快速的手势运动。
虽然L1回归是从数据中提取训练信号的唯一方法,但它存在回归均值的已知问题,这种回归均值会产生过度平滑的运动。为了解决这个问题,添加了一个以预测的姿态序列的差异为条件对抗性鉴别器。
研究团队
这一研究的作者,大部分来自UC伯克利。
一作为Shiry Ginosar,UC伯克利计算机系的博士生。之前是人机交互领域的研究员,曾经在CMU计算机系做访问学者。
共同一作为Amir Bar,是一名生活在伯克利的机器学习工程师。目前,在Zebra Medical Vision工作,致力于提高医疗保健领域的效率。
他们在论文中说,这一研究是朝着对话手势的计算分析迈出的一步,之后也可以用于驱动虚拟任务的行为。
最后,送上传送门:
论文地址:
http://people.eecs.berkeley.edu/~shiry/speech2gesture/
源代码即将公开:
https://github.com/amirbar/speech2gesture