大家都在谈论大数据,你真的懂吗

发布者:chinalisa最新更新时间:2019-08-14 来源: 鲜枣课堂关键字:大数据 手机看文章 扫描二维码
随时随地手机看文章

今天这篇文章,我们来聊聊大数据。

 

 

近年来,大数据这个词的热度很高,受到公众的广泛关注。

 

对于很多人来说,当他第一次听到“大数据”这个词,会自然而然从字面上去理解——认为大数据就是大量的数据,大数据技术就是大量数据的存储技术。

 

但事实上,它并不只是一项存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术。大数据系统,是一个庞大的框架系统。

 

更进一步来说,大数据是一种全新的思维方式和商业模式。

 

 

今天这篇文章,就让我们来深入了解一下,到底什么是大数据。

 

  大数据的定义  

 

首先,我们看看大数据的定义。

 

行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。

 

广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。

 

狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。

 

相比较而言,狭义定义更好理解一些。

 

大家注意,关键词我都在上面原句加粗了:

 

要做什么?——获取数据、存储数据、分析数据

 

对谁做?——大容量数据

 

目的是什么?——挖掘价值

 

获取数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们每天都在用电脑,每天都在干这个事。

 

例如,每月的月初,考勤管理员会获取每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有多少人迟到、缺勤,然后扣TA工资。

 

但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。

 

  大数据,到底有多大?  

 

 我们传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。

 

TB、GB、MB、KB的关系,大家应该都很熟悉了:

 

1 KB = 1024 B  (KB - kilobyte) 

 

1 MB = 1024 KB (MB - megabyte) 

 

1 GB = 1024 MB (GB - gigabyte) 

 

1 TB = 1024 GB (TB - terabyte) 

 

而大数据是什么级别呢?PB/EB级别。

 

大部分人都没听过。其实也就是继续乘以1024:

 

1 PB = 1024 TB (PB - petabyte) 

 

1 EB = 1024 PB (EB - exabyte) 

 

只是看这几个字母的话,貌似不是很直观。我来举个例子吧。

 

1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是20万部电子书。

 

 

普通硬盘

 

1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年。。。

 

 

1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。

 

 

阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。

 

 

阿里数据中心内景

 

EB还不是最大的。目前全人类的数据量,是ZB级。

 

1 ZB = 1024 EB (ZB - zettabyte) 

 

2011年,全球被创建和复制的数据总量是1.8ZB。

 

而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。

 

 

数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。

 

目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。

 

大数据的级别定位

 

1 KB = 1024 B  (KB - kilobyte) 

 

1 MB = 1024 KB (MB - megabyte) 

 

1 GB = 1024 MB (GB - gigabyte) 

 

1 TB = 1024 GB (TB - terabyte) 

 

1 PB = 1024 TB (PB - petabyte) 

 

1 EB = 1024 PB (EB - exabyte) 

 

1 ZB = 1024 EB (ZB - zettabyte) 

 

  数据的来源  

 

数据的增长,为什么会如此之快?

 

说到这里,就要回顾一下人类社会数据产生的几个重要阶段。

 

大致来说,是三个重要的阶段。

 

第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。

 

 

第二个阶段,是伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据。

 

 

第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。

 

 

经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。

 

    大数据的4个V    

 

行业里对大数据的特点,概括为4个V。

 

前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,分别是Variety、Velocity、Value。

 

我们一个一个来介绍。

 

Variety(多样化)

 

数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。

 

数据又分为结构化数据和非结构化数据。

 

从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。

 

   

 

结构化数据

 

例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。

 

而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。

 

在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。

 

大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。

 

  •  Velocity(时效性)

  •                    

大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。

 

我们还是用数字来说话:

 

就在刚刚过去的这一分钟,数据世界里发生了什么?

 

Email:2.04亿封被发出

 

Google:200万次搜索请求被提交

 

Youtube:2880分钟的视频被上传

 

Facebook:69.5万条状态被更新

 

Twitter:98000条推送被发出

 

12306:1840张车票被卖出

 

……

 

怎么样?是不是瞬息万变?

 

Value(价值密度)

 

最后一个特点,就是价值密度。

 

大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。

 

例如通过监控视频寻找犯罪分子的相貌,也许几TB的视频文件,真正有价值的,只有几秒钟。

 

2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。

 

  大数据的价值  

 

刚才说到价值密度,也就说到了大数据的核心本质,那就是价值。 

 

人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。

 

大数据,究竟有什么价值?

 

早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。

 

 

第一次浪潮:农业阶段,约1万年前开始

 

第二次浪潮:工业阶段,17世纪末开始

 

第三次浪潮:信息化阶段,20世纪50年代后期开始

 

进入21世纪之后,随着前面所说的第二第三阶段的发展,移动互联网崛起,存储能力和云计算能力飞跃,大数据开始落地,也引起了越来越多的重视。

 

2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。

 

如今,大数据应用开始走进我们的生活,影响我们的衣食住行。

 

 

滴滴的大数据杀熟,相信大家都有所耳闻

 

之所以大数据会有这么快的发展,就是因为越来越多的行业和企业,开始认识到大数据的价值,开始试图参与挖掘大数据的价值。

 

归纳来说,大数据的价值主要来自于两个方面:

 

1 帮助企业了解用户

 

大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。

 

典型的例子就是电商。

 

像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。

 

通过这些数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。

 

大数据可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。

 

除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。

 

2 帮助企业了解自己

 

除了帮助了解用户之外,大数据还能帮助了解自己。

 

企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。

 

总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的。

 

大数据和云计算  

 

说到这里,我们要回答一个很多人心里都存在的疑惑——大数据和云计算之间,到底有什么关系?

 

可以这么解释:数据本身是一种资产,而云计算,则是为挖掘资产价值提供合适的工具。

 

从技术上,大数据是依赖于云计算的。云计算里面的海量数据存储技术、海量数据管理技术、分布式计算模型等,都是大数据技术的基础。

 

云计算就像是挖掘机,大数据就是矿山。如果没有云计算,大数据的价值就发挥不出来。

 

相反的,大数据的处理需求,也刺激了云计算相关技术的发展和落地。

 

也就是说,如果没有大数据这座矿山,云计算这个挖掘机,很多强悍的功能都发展不起来。

 

套用一句老话——云计算和大数据,两者是相辅相成的。

 

大数据和物联网(5G)  

 

第二个问题,大数据和物联网有什么关系?

 

这个问题我觉得大家应该能够很快想明白,前面其实也提到了。

 

物联网就是“物与物互相连接的互联网”。物联网的感知层,产生了海量的数据,将会极大地促进大数据的发展。

 

同样,大数据应用也发挥了物联网的价值,反向刺激了物联网的使用需求。越来越多的企业,发觉能够通过物联网大数据获得价值,就会愿意投资建设物联网。

 

其实这个问题也可以进一步延伸为“大数据和5G之间的关系”。

 

即将到来的5G,通过提升连接速率,提升了“人联网”的感知,也促进了人类主动创造数据。

 

另一方面,它更多是为“物联网”服务的。包括低延时、海量终端连接等,都是物联网场景的需求。

 

5G刺激物联网的发展,而物联网刺激大数据的发展。所有通信基础设施的强大,都是为大数据崛起铺平道路。

 

大数据的产业链  

 

接下来再说说大数据的产业链。

 

大数据的产业链,和大数据的处理流程是紧密相关的。简单来说,就是生产数据、聚合数据、分析数据、消费数据。

 

每个环节,都有相应的角色玩家。如下图:

 

 

从目前的情况来看,国外厂商在大数据产业占据了较大的份额,尤其是上游领域,基本上都是国外企业。国内IT企业相比而言,存在较大的差距。

 

 

大数据相关重点领域及企业(技术)

 

大数据的挑战  

 

说了那么多大数据的好话,并不代表大数据是完美的。

 

大数据也面临着很多挑战。

 

除了数据管理技术难度之外,大数据的最大挑战,就是安全。

 

数据是资产,也是隐私。没有人愿意自己的隐私被暴露,所以,人们对自己的隐私保护越来越重视。政府也在不断加强对公民隐私权的保护,出台了很多法律。

 

 

欧盟在2018年出台了有史以来最严厉的GDPR(《一般数据保护法案》),把网络数据保护上升到前所未有的高度

 

在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。

 

此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。

 

除了安全之外,大数据还要面临能耗等方面的问题。

 

换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。

 

好啦,洋洋洒洒写了这么多,相信大家已经对大数据有了初步的了解。

 

后续,小枣君将重点介绍大数据的关键框架和技术栈,包括大家非常关心的Hadoop、Spark、HDFS、MapReduce等概念,都将一一进行解读。



关键字:大数据 引用地址:大家都在谈论大数据,你真的懂吗

上一篇:5G这么快还会延迟?看这篇文章你就懂了
下一篇:大联大世平集团推出77G毫米波感测模块之人员计数解决方案

推荐阅读最新更新时间:2024-11-11 07:09

心会跟AI一起走:英特尔汇聚产学研,为情绪洒满阳光
现代社会快速发展,人们的生活节奏日益加快,心理健康作为健康的重要组成部分,其重要性日益凸显。随着科技的飞速进步,社会各界也在广泛关注并积极探索通过科技助力大众心理健康水平提升的方式。 英特尔作为一家负责任的科技企业,持续发挥自身科技和AI能力,推动科技向善。2 024年6月26日,“情绪阳光行动——心会跟AI一起走”行业研讨会及公益项目启动仪式在京拉开帷幕,活动由中国健康促进与教育协会作为指导单位,由英特尔携手幸福科技馆、时尚集团、厚德明心、未名脑脑等11家产业、学界同仁共同举办。 本次活动汇聚多方力量,共同聚焦社会心理健康整体水平提升,通过专家分享和圆桌交流共话由科技助力的心理健康辅助方法,展示AI技术在心理健康领域的探
[网络通信]
心会跟AI一起走:英特尔汇聚产学研,为情绪洒满阳光
首个AI协同及大数据安全国际标准有望明年出台
数据孤岛问题如何解决?这是数据驱动以及人工智能时代下,诸多互联网公司乃至科技公司非常棘手的问题。不过,最近一项人工智能标准制定的推进,或许将改变这种现状。 今年年初,首个AI协同及大数据安全国际标准在IEEE联邦学习标准制定委员会的推动下,在深圳召开了工作组第一次会议。其中,创新工场南京国际人工智能研究院执行院长冯霁代表创新工场当选为IEEE联邦学习标准制定委员会副主席,共同着手推进制定AI协同及大数据安全领域首个国际标准。 4月11日,创新工场人工智能工程院执行院长王咏刚以及冯霁围绕该标准回答了媒体记者提问。 首个AI协同及大数据安全国际标准是什么? 据悉,IEEE联邦学习标准项目是国际上首个针对人工智能协同技术框架订立标准
[机器人]
可穿戴产业的总结:站在风口还没飞起来
今年的智能穿戴产品可谓大爆发,但是商业化的普及却并没有概念火爆。可穿戴产品从谷歌眼镜、娱乐控制、儿童监护、健康医疗、智能家居、智能服饰到通讯等领域,资本云集,技术比拼加速。   1、2014全球可穿戴设备技术路径 在资本的推动以及媒体的关注下,智能穿戴技术进入了不同的领域进行探索。但从目前全球的技术路径来看,智能穿戴目前的技术路径主要分为四条:一条是以三星等传统通讯企业为代表的可穿戴设备的路径,就是基于通讯的智能穿戴产品;一条是以耐克等传统运动娱乐企业为代表的可穿戴设备的路径,就是基于定位、运动娱乐的智能穿戴产品;第三条则是以谷歌眼镜为代表的可穿戴设备的路径,就是基于眼镜类的虚拟现实或沉浸式的智能穿戴产品;第四条则是以移动
[嵌入式]
大数据的到来将带来哪些改变?
大数据正在改变组织决策的未来。阿莱因科技大学教授Belkacem Athamena撰写了一篇关于决策中大数据演变的白皮书。由于新的大数据技术使决策更加可靠,因此企业将比以往更加重视量化决策模型。 创建高度复杂的大数据决策模型 企业可以通过两种方式处理数据:提高运营效率和实施更好的决策。使用大数据来提高效率,可以使管理人员能够加快报告和分析的交付。这意味着做出更好决策或发布新产品所需的时间可以从几个月缩短到几天。有效利用大数据的企业将能够做出更高质量的决策,这对其利润产生了积极影响。 世界各地的企业都意识到大数据比以往任何时候都更重要。NewVantage公司在大数据和人工智能的调查中,强调大数据的使用率正在不断提高。以下是
[嵌入式]
手机和物联网 激发无限可能
手机或是直接与特定物联网装置链接,或是透过云端平台及传感器进行大范围调控,无论是对个人、家庭、工厂等使用情境而言,手机串连了人与物,开启了更多创新应用的可行性。下面就随网络通信小编一起来了解一下相关内容吧。 手机和物联网 激发无限可能 物联网铺天盖地,生活在其中的我们,透过移动装置,尤其是手机及各式各样的APP,得以与“物”沟通,无论是在室内和户外,无论是近身或远程控制。手机或是直接与特定物联网装置链接,或是透过云端平台及传感器进行大范围调控,无论是对个人、家庭、工厂等使用情境而言,手机串连了人与物,开启了更多创新应用的可行性。 例如在智能家居环境中,使用者可以远程命令电饭锅煮饭及冷气开启等,或者是直接与网关连结控制各种家电
[网络通信]
要想实现自动驾驶 首先搞定大数据
  随着通用汽车、戴姆勒、宝马和奥迪等主流车企都宣布将在2020年前后推出Level 5级别的 自动驾驶 汽车,这一领域的竞争已进入白热化阶段。国际知名投行高盛预测,自动驾驶出租车的出现,将使全球共享汽车市场的规模从现在的50亿美元,到2030年上升至2850亿美元。   毫无疑问,这是一块大蛋糕,于是汽车厂商都在不亦乐乎地忙着路测,然而他们实现雄心勃勃的自动驾驶目标的关键所在,是利用分析学和人工智能(AI)的力量,建立自动驾驶系统在实际道路上的反应模式,并利用现实模拟技术来加速开发进程。这意味着数据工程、管理、存储和分析变得比以往任何时候更加重要。那么,汽车制造商到底应该怎么做呢?   首先,做好准备迎接海量数据的“洗礼”。自
[嵌入式]
边缘计算推动AI发展 未来能摆脱云计算吗
现在人工智能AI技术的火爆程度不亚于任何一项IT新技术的宣传力度,我们也不可否认,人工智能背后所依靠的就是云计算平台的强大支撑,很多AI的具体需要依靠云计算平台当中边缘计算去完成,但是,现在AI在应用部署过程当中仍然受限制于边缘计算的成本层面以及设备只能分析能力等很多方面。 不管是从现在的国家政策扶持方面,还是企业在业务应用推动等方面,我们都可以看到人工智能现在到底有多火,根据权威市场分析机构的研究数据表明,在未来,全球人工智能市场规模年均增长率达到15%。到2030年,人工智能将助推全球生产总值增长12%左右,近10万亿美元。如此庞大的一个市场规模足以让越来越多的企业投身其中。 到底什么是边缘计算 正是因为边缘计
[网络通信]
大数据技术革新 升华视频监控体系架构
    视频监控业务的核心就是数据,数据就是业务本身,那么基于大数据架构,可以给中大型的视频监控项目带来诸多的裨益。     第一,架构更加灵活,伸缩弹性更大     对于一些中大型项目,由于起点的差异,缺乏视频监控架构的顶层设计,后期的扩容升级难免尾大不掉,如在建设初期就引入面向大数据的架构,为业务扩张和管理带来好处。     第二,以廉价通用硬件迎合视频监控数据的爆发性增长     在面向大数据的架构中,可根据视频监控业务的部署需要,设立多个HDFS集群组成,采集的流数据会被划分成段,并分布于数据节点,这些数据节点可以采用廉价通用型的硬件,由软件技术保证其高可靠性,这种方式避免采用传统高端硬件的模式,大大降低投
[安防电子]
小广播
最新网络通信文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved