今日头条的引擎是怎么样工作的?
把媒体内容分发给用户,“你关心的才是头条”,对于今日头条这个产品,相信大家都不陌生。那么,你是否好奇过,今日头条是如何做到,向每个读者推送不一样的、据称是符合读者每个人不同兴趣的内容的呢?今日头条算数中心执行总监刘志毅在日前于深圳北京大学汇丰商学院举行的 “数据之美” 论坛上做了介绍。
首先,数据从哪里来?
虽然对于头条来讲,其用户量、用户的粘性时间已经足够大了,但是,要怎么样精细,怎么样的数据才是可信赖的,怎么样的数据是可复用的?
对于数据所产生和获取的流程,今日头条算数中心执行总监刘志毅抛出一道小问题来介绍:
现在面前有很多颗糖果,然后有两个人要把这个糖果的数量数清楚,有一个人他会加减乘除地来数,3 颗 3 颗数,5 颗 5 颗地;还有一个人就很笨,只会一颗一颗,永远一颗一颗地数,那问一下,是哪一个人能够先把这一大堆糖果数清楚啊?
事实上,按正常的逻辑确实应该回答 “第一个” 的,“但是在互联网公司,答案是第二个,因为虽然是一颗一颗地数,但他一秒种可以数一万个,所以他更直接更快速。” 这是机器学习发展到今天的成果,机器分发的效率一定大于人工分发。在 2016 年的年终,易观发布的第三方数据显示,如今机器分发的比例已经超过了人工分发。
分发糖果与分发内容逻辑是一样的。那么,这背后,头条具体的引擎是怎么样工作的?这时候需要把文章和用户两端的数据连接起来。
据刘志毅解释,
首先文章进入机器引擎后,头条需要机器识别它们的关键词,识别其涉及到的内容领域,用户对它们的反应,然后把结果放到一个特征向量空间中。
与此同时,用户端也发生了同样的变化。
“然后我们去看这两个向量,怎么样匹配度最高,然后就推送给他。”
具体来说,这些用以匹配的数据变量可能包括几个大方面的特征:
首先,这个用户,他的性别兴趣,年龄地域用的手机是什么?
家乡是哪里?关注什么东西?会点什么样的广告?
然后他目前处在什么样的环境?今天有没有下雨?用 WiFi 还是用 3G,4G,2G?
这个文章本身是一分钟之内的快消息,还是几年之内看都不算失效的消息?用户的反馈对他们是什么样?
这个文章有什么样的关键词…… 等等
这些数据将产生一个百亿级别的特征,今日头条最终根据特征判断用户的需求,把内容呈现到每一个人不同的手机屏幕上。
但是,这还不是最技术范的地方。数据部门真正做的事情是,“从刚刚所描述的这个过程中积累出来一些东西,然后让他去发挥价值,” 刘志毅说道,这才是数据挖掘的价值所在。
“这只是我所想要表达的数据维度的 1%,”
用户点击什么文章?没有点击什么文章?
点赞还是点踩?
阅读速度快不快?完成多少比例?
对某一个话题产生了持续性的还是短暂的影响?读完之后有没有讲到什么评论?
那他用的是什么样的手机在读你的东西?是什么样的手机的什么型号?去年用这个型号,今年是不是还用这个型号?
……
刘志毅称,“这样的信息都会作为这个用户的组合特征的一部分,然后我们去提取这一部分来把它作为数据的样本进行分析。”
数据到哪里去?
知道了数据怎么来之后,数据要到哪里去,产生怎样的价值?这又是一场好戏了。
据雷锋网了解,今日头条曾推出了 “今日头条媒体实验室”,这个实验室的作用,相当于差异化内容创作的 “参谋”。就是说,其将通过每一篇文章的传播数据去告诉不同的内容的写作者创作者,假如想要影响某一个特定的人群,需要怎么样创作内容,并且在什么样的平台上,以什么样的方式在什么样的时间点发布是效率最大化的。
刘志毅举了这样一个例子:以美国总统选举为例,在中国希拉里一直热度是领先,但是跟美国人投票不一样。最后希拉里败选,但是她败选之后,在头条平台上面的热度也降得非常快,这个可能跟中国人对美国时政事件的关心规律有关系,那么,媒体则会依据这个来进行内容创作。
另外一个是,数据也许可以呈现出人类作者意想不到的角度:在今日头条与南方周末的合作中,大家都关心学区房房价的问题,但数据显示——在这些事实之外,跟学区房同时出现的概率最高的词中间,“离婚” 排在前 3 位。
这就是计算机辅助报道的一种方式,也是大数据、AI 带给传统行业的变革。
AI 带给商业市场更多机会
除了反哺媒体创作,阅读数据还有哪些想象力呢?
透视市场潜力
雷锋网此前报道,在一些数据密集型的产业,都成为了 AI 产业应用孵化的首选之地。接下来看了 OPPO 和 vivo 的案例,你就不会奇怪了。
众所周知,去年,手机市场一个关注度颇高的话题是:大家发现主流手机品牌不那么景气了,包括苹果,但是有两家厂商非常受关注——OPPO 和 Vivo。
“OPPO 跟 Vivo 做了一件很有意思的事情,他们在 345 线城市的用户很多,但是他们请了很多跟一二线城市的口味更匹配的代言人来作为宣传他们品牌的代言人。这是他们根据通过阅读数据产生的决定。他们充分把握住了 345 线城市对于手机的需求。”
雷锋网了解到,根据头条阅读的数据发现,345 线城市对于手机的具体参数、性价比方面表现得不那么敏感,但对于手机的体验的介绍,却是阅读量远高于一二线城市的。“所以当 OPPO 没有把大部分的推广和宣传经费放到线下的渠道去影响 345 线城市的时候,他后面的成功,也是在阅读数据上能够发现的奇妙的地方。”
总的来说,刘志毅表示,AI 之所以影响人类各行各业,是因为,“阅读其实是一种人们对于自我归类的一种方式,所以头条上面阅读数据其实是人在不同的组别中间自我归类的一些信息,这些规律的信息产生了我刚才所说到的所有的价值。”