在国外,大数据在农业研究、金融市场、气象预报、交通管理、新闻报道等方面已经应用得很广泛。大数据会怎样改变我们的生活?大数据距离普通个体到底有多远?大数据作为新兴产业应如何科学理性发展?
用当下工具处理不了的数据就是大数据
大数据是今天才有的吗?对此,工业和信息化部电信研究院互联网中心主任何宝宏告诉大家,大数据不是今天出现的,而是当一个时代的人无法用那个时代的工具来处理的数据,就可以称为大数据。所以,现在的大数据,就是现代人用现代工具处理不了的数据。
人口普查,就是一个海量的数据。美国人口普查10年一次,1880年的人口普查用了8年,1890年大概用了13年时间。何宝宏说,任何一次挑战,都会导致一次新的技术革命。自从有人发明了穿孔卡片制表机,美国人口普查用一年时间就完成了。是人口普查催生了现代信息产业的诞生,也就是计算机的诞生。
早期是人口的大数据,后来又发明了用数据来表示长度、重量、体积和面积,现在计算机用非常精确的数据表示不同的颜色,以及电流、电压、声音、图像。何宝宏分析认为,准确地用数据或大数据方式描述医学或者描述遗传学的,很可能会获诺贝尔奖。事实上,去年的诺贝尔化学奖获得者就做了大数据分析。
人际关系也能用数据来表达
何宝宏说,今天我们的社交网络,像QQ、微信,实际上就是一种将人类关系数据化的过程。几年前大家恐怕还难以想象人际关系怎么能用数据来表示,而现在却已经做到了。在外国互联网最早开始时,我们是被动地将自己的数据留在互联网上让大家处理分析;微博、微信时代,我们开始主动往互联网上输送信息,特别是在移动互联网时代,随时随地都在产生数据;而到了云计算时代,不仅是随时随地产生数据,人们还希望把整个硬盘上的数据都搬到云计算上分析处理,作为大数据的组成部分。
为什么今天大数据那么热?何宝宏认为,首先是我们确实获取数据的渠道太多了,像物联网、互联网、基因、量子力学等等,都是在用数据描述世界,采集数据的工具越来越多样化;其次是云计算的兴起,云计算时代可以廉价、高效地处理大数据。但他说,如果没有办法用经济有效的方式去处理大数据,数据就没有用。
大数据带来了生活方式的转变
何宝宏说,大数据还给我们带来了生活习惯和方式的转变。譬如营销,目前大数据最成熟的应用是互联网广告营销,公众在搜索或者浏览网页时推出的广告越来越精确。传统媒体的广告支撑主要是靠拍卖,而互联网广告已经进展到了一个新的时代,是实时竞价——某个人在浏览某个网页时广告是自动、动态生成的,哪个人愿意投广告,多少人投标,基本上可以分析出这个人的性格特征,所有的东西都是在一秒钟之内完成的。而现在的传统媒体投广告,没有几个月时间是难以实现的。
还有银行。金融业本身就是数据的行业,去年互联网金融非常热,根基就是由于大数据技术的来临。比如,在互联网上记录每一笔交易的单笔成本是2元,而传统银行放一笔贷款大概需要800元~2000元的费用,所以广大中小企业都变成了互联网金融的客户。
大数据的作用还体现在能够引导公众的行为方式,甚至影响思想意识。最重要的是,大数据不但可以运用互联网发展,还可以运用物联网发展。物联网典型的就是智慧城市发展中利用大数据来发展智慧城市,而智慧城市最重要的是提高政府对城市的管理水平和服务水平。大数据可以运用到社会的方方面面,军事、政治、社会管理、医疗、交通、物流、金融服务、消费、食品安全、环境、气象。比如,智慧医疗就可以在大数据的帮助下实现。比如,心脏病患者平时做心电图时,医生花几十秒的时间随便一看可能看不出啥问题,因为没有历史数据无法进行分析。现在有了大数据,就可以对累计数据进行分析,用远程实时监测、预测心脏病发生的几率并做出预判处理。
推动大数据的动力是人类对分析世界的渴望
既然大数据这么重要,那么推动大数据的动力是什么?张新生认为,核心动力是人类对测量记录和分析世界的渴望。他说,互联网、移动互联网、物联网和云计算的快速发展,使人类测量、记录和分析世界成为可能。
今天是信息爆炸时代。张新生说,信息爆炸时代如果不利用大数据,或者没有手段利用,我们就会被信息淹死。好在今天有了云技术,可以对所有的数据进行存储、记录、测量、分析。云技术的出现,使人类测量、记录和分析世界成为可能。
而在过去我们认识的物理世界里,在分析时要做大量的实证性工作,比如做问卷、访谈,得到一小部分样本进行分析、计算,最后得出结论。在那种条件下,认识整个世界太慢、太复杂了,但今天所有的东西都在网络中,都在大的云计算平台里,可以在网络上精确地再现现实世界全貌的模型——如同有人所说,今天我们可以把现实世界用投影仪投在幕布上。
有能力,就可以从大量的信息中提取有用的数据,获取价值,但如果没有能力,就会被大数据淹死。张新生说,通过先进技术从海量的信息中挖掘出有质量、有价值的数据,并且使大量有价值的数据转化成知识,是大数据今天要解决的关键问题。
大数据是我们大家贡献出来的
大数据是从哪儿来的?唐雄燕说,其实是我们大家贡献出来的。比如,平时有些隐私的话可能不会跟家里人说,但告诉百度了;上网搜什么东西,百度知道;社交关系谁掌握,所用的微信和QQ会掌握;购物爱好和习惯,淘宝网、京东网知道;通话和上网记录,三个运营商可能有;身份、家庭和房产信息,政府那里有;在哪里刷了信用卡,银行知道;现在人在哪儿,你的手机可能掌握。
要在数据里找出有价值的东西来,这就是大数据技术的核心,迅速完成数据价值的提纯。比如,监控了你一整天,可能真正有用的数据,就是在一两秒钟内发现你干了坏事。这是如何找出来的?这就是数据挖掘技术的关键。通过大数据应用可达到什么目的?唐雄燕认为,对我们的管理来说实现了更高效的管理,对商业来说实现了更精确的营销,对于社会很多事件的发生,或者是环境的预测来说,则提供了更及时的预测,以及更优质的服务。比如,谷歌通过对搜索的分析判断流感的趋势,和美国疾控中心的数据完全是一致的,而且速度更快。
大数据应用靠技术来支撑
大数据到底是一种现象还是一种技术?百度公司发展研究中心副主任率鹏认为,没有技术支撑的大数据是没有办法应用起来的。
比如,在“百度知心”上搜索“刘德华”,除了在屏幕左侧展现刘德华的基本信息,还同时在右侧展现用户在访问“刘德华”信息过程中可能会感兴趣的其他资料——代表作、家庭情况、个人生活信息,甚至目前和他关系紧密的一些其他艺人的资料。这样一些信息,恰恰是对于用户在百度上对刘德华大量的搜索行为总结和归纳的基础上,才把知心的信息归纳并且展现出来的。
搜索“紫色的小花”,百度就会给出很多类似的花卉,并且一定是紫色的,同时这个花一定不大。这样的搜索结果,也都是通过对于大数据的归纳和处理总结出来的。还有“PK大咖”——拍一张自己的照片,百度就能告诉你哪个明星和你长得最像,相似度有多少。
“百度翻译”,则是通过大数据和学习的技术,上线了24种语言不同的翻译工具,其中有12种是整个百度翻译团队都没有人懂的。率鹏说,在完全不了解、不懂得、不理解这种语言的情况下,正是大数据技术的支撑,开发出了这个在行业中质量非常领先的翻译工具。
大数据对隐私保护提出了挑战
大数据的应用,会让人们在上网、刷卡时把自己的信息暴露出来,因而就产生了关于隐私保护的问题。大公司对于用户隐私的保护是非常严格的,包括最近国内的10家公共云服务企业做了内部评测,它们是可信和有保障的。
但他也指出,对于政策制定来说,原来对用户的隐私保护更多侧重于隐私本身是什么,如个人的名字、电话号码、银行账号等。而大数据时代除了保护这些信息,需要一些新的思路和方法,如果只是保护用户信息的采集环节,在大数据时代就是不完整的,因为总有一些其他信息能够分析出有些涉及用户隐私的信息。就是说企业掌握这个数据,或者掌握这些分析是允许的,但法律要禁止的是拿这些数据不能做什么。他认为,大数据时代对隐私保护提出了新的挑战。
大企业在隐私的保护上相对会有比较完善的手段,也不敢轻易去作恶,如果要作恶的话,代价是非常大的。但一些小的企业,就比较容易出问题了。随着大数据的发展,将来骗子在互联网上也是透明的,如果有不良行为,很快就可以被抓住。有了大数据,反而能增强信息的安全。
率鹏则认为,首先是国家有相关的法律进行保护和约束。在隐私问题上,他重点强调了两个概念:一是符号化,二是用户特征。所谓符号化,就是当去识别一个用户的时候,实际上是用和他的真实信息不相关的符号标记这个用户,这个符号是通过算法来保证的,使你下一次登陆时依然能够识别出和上一次登陆是同一个用户,但是从技术上,却没有办法通过这个符号反推出这个人在真实生活中的姓名、电话和住址,这些信息和这个符号都是没有办法关联起来的,是单向的识别,而不是在网络上肖像和真实身份挂接起来。这就使得基本享受了大数据带来的优势,同时又规避了信息安全的风险。
所谓用户特征,则意味着在大数据时代,企业感兴趣的往往是这个用户的特征,而不是家庭地址、电话号码那些敏感的信息。如果在数据使用过程中严格遵循这些原则的话,就能够规避风险。率鹏特别提到,有些用户会把照片发到微博上,或者把真实的履历信息以一种公开的形式放在互联网上。他认为,在大数据时代,迫切需要向用户加强对于保护个人信息意识的教育,即安全上网的教育。