大数据技术架构详解

发布者:清新心情最新更新时间:2017-11-19 来源: 互联网关键字:大数据 手机看文章 扫描二维码
随时随地手机看文章

大多数的技术突破来源于实际的产品需要,大数据最初诞生于谷歌的搜索引擎中。随着web2.0时代的发展,互联网上数据量呈献爆炸式的增长,为了满足信息搜索的需要,对大规模数据的存储提出了非常强劲的需要。基于成本的考虑,通过提升硬件来解决大批量数据的搜索越来越不切实际,于是谷歌提出了一种基于软件的可靠文件存储体系GFS,使用普通的PC机来并行支撑大规模的存储。存进去的数据是低价值的,只有对数据进行过加工才能满足实际的应用需要,于是谷歌又创造了MapReduce这一计算模型,该模型能够利用集群的力量将复杂的运算拆分到每一台普通PC上,计算完成后通过汇总得到最终的计算结果,这样就能够通过直接增加机器数量就获得更好的运算能力了。


有了GFS和MapReduce之后,文件的存储和运算得到了解决,这时候又出现了新的问题。GFS的随机读写能力很差,而谷歌有需要一种来存放格式化数据的数据库,原本通过单机的数据库就能解决的问题到了谷歌那里就悲剧了,于是神器的谷歌就又开发了一套BigTable系统,利用GFS的文件存储系统外加一个分布式的锁管理系统Chubby就设计出来了BigTable这样一个列式的数据库系统。


在谷歌完成了上述的系统后,就把其中的思想作为论文发布出来了,基于这些论文,出现了一个用JAVA写的类GFS开源项目Hadoop,最开始hadoop的赞助人是yahoo,后来这个项目成了Apche的顶级项目。


大数据的解决方案:


谷歌的那一套系统是闭源的,开源的Hadoop于是就广泛传播开来了。


和谷歌那套系统类似,Hadoop的最核心的存储层叫做HDFS,全称是Hadoop文件存储系统,有了存储系统还要有分析系统,于是就有了开源版本的MapReduce,类似的参照BigTable就有了Hbase。一开源之后整个系统用的人就多了,于是大家都像要各种各样的特性。facebook的那些人觉得mapreduce程序太难写,于是就开发了Hive,Hive就是一套能把SQL语句转成Mapreduce的工具,有了这套工具只要你会SQL就可以来Hadoop上写mapreduce程序分析数据了。对了,参考chubby,我们有了开源的ZooKeeper来作为分布式锁服务的提供者。


由于Hadoop最开始设计是用来跑文件的,对于数据的批处理来说这没什么问题,有一天突然大家想要一个实时的查询服务,数据这么大,要满足实时查询首先要抛开的是mapreduce,因为它真的好慢。2008年的时候一家叫Cloudera的公司出现了,他们的目标是要做hadoop界的redhat,把各种外围系统打包进去组成一个完整的生态系统,后来他们开发出来了impala,impala的速度比mapreduce在实时分析上的效率有了几十倍的提升,后来hadoop的创始人Doug CutTIng也加入了cloudera。这时候学院派也开始发力了,加州大学伯克利分校开发出来了Spark来做实时查询处理,刚开始Spark的语法好诡异,后来慢慢出现了Shark项目,渐渐的使得Spark向SQL语法靠近。


未来的发展趋势:


时代的发展决定了未来几乎就要变成数据的时代了,在这样的一个时代,大数据的需求越来越深,摒弃过去的抽样调查,改为全量的统计分析,从一些原本无意义的数据中挖掘价值。当前大数据已经开始逐渐服务于我们的生活,搜索、科学、用户分析。。。


为了进一步提供大数据的分析能力,内存计算的概念在未来还会持续很长的时间,通过内存计算,摒弃磁盘IO对性能的天花板作用,将运算的结果以实时的方式呈献在我们面前。


大数据数量庞大,格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力,给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构,围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程,开发使用这些数据,释放出更多数据的隐藏价值。

关键字:大数据 引用地址:大数据技术架构详解

上一篇:中移铁通将与中国移动合并,移动接收铁通业务,客服热线统一
下一篇:思科和VMwar平分SD-WAN天下,初创公司希望渺茫

推荐阅读最新更新时间:2024-05-07 17:44

新加坡数据创新 将何去何从
由于先天地理条件限制,新加坡的人口密度高、交通拥挤与人口老化问题严重。新加坡政府一直以来期望经由科技通讯技术,缓解影响国家发展的核心问题,试验各种数字创新,近年将智慧国家作为国家重要发展策略,推动各项基础建设,并为企业与研究者提供实验与研究的空间,发展解决方案的模型,并推动应用计划鼓励数字解决方案落地。 在智慧国家计划的框架之下,新加坡各政府单位配合国家发展目标,在交通、环境、制造与健康领域投入资源协助数据创新解决方案开发与应用,透过产官学合作已在上述领域取得初步成果。新加坡希望透过分析开放数据,提升都市运输效率,并达成减碳效果,具体作法包含分析交通票卷、车辆传感器数据分析等。根据智慧国家计划网站公布信息,经由上述作法,该
[网络通信]
传感器是物联网发展关键,大数据将成商业核心
物联网近些年来发展势头迅猛,在各个领域的应用都越来越深入。但是任何技术的发展都受限于基础硬件的核心水平与部署规模,而物联网发展的关键就在于传感器。 物联网通常划分为感知、传输和应用三个层次,感知层以如传感器、RFID(射频识别)等为主,是信息采集的关键部分,传感器更是被誉为物联网时代下的五官。 物联网时代,成千上万的传感器被嵌入到现实世界的各种设备中,如移动终端、智能电表、建筑物和各工业机器等等,各种设备联网后,便产生出数以亿计的数据,随着物联网设备不断扩大和传感器大规模部署,所采集到的大数据将会产生更大的商业价值、创造更多的商业机遇。 物联网的核心价值在哪? 物联网通常划分为感知、传输和应用三个层次,感知层以
[物联网]
边缘计算在地铁等细分场景中如何应用?
“保姆级”边缘计算在细分领域应用案例分享 上周,雷锋网 AI 掘金志邀请到了触景无限副总裁赵寒伟做客雷锋网公开课,以“「边缘计算」在地铁等城市级场景下的实战复盘”为题进行了干货分享。后续将有更多课程上线,添加微信号 suekee777 报名听课。近几年,边缘计算市场规模持续增长,并迅速在安防、智慧城市、自动驾驶等领域被应用,边缘端的处理、分析和存储能力成为考验 AI 公司的关键。 赵寒伟认为,物联网和云发展多年,平台建设和打通完成度已经非常高,但智慧城市迟迟没有真正到来,是因为基础的感知没有实现,智慧城市细分领域多,感知涉及每个层面,而芯片算力和边缘计算决定了感知能力,也唯有在前端智能分析,与后端配合,才能将城市物联网数据
[嵌入式]
边缘计算在地铁等细分场景中如何应用?
汽车观察 | 车联网:风向何处吹
  随着5G,大数据,云计算,人工智能等新一代技术和汽车交通等领域的深度融合,车与车、路、人、云的多维信息交互网络正在形成,汽车智能化水平不断提升,自动驾驶、综合信息服务、智慧交通等加速发展,车联网产业已经成为国际竞争的热点和焦点。   那么,当下我国的车联网行业究竟处于一个什么样的发展阶段?它的应用情况如何?当下面临着什么样的问题?下一步又该如何走?   1月31日,第七届中国车联网大会在北京召开。会议间隙,《汽车观察》记者就以上话题对与会专家进行了采访。     国内车联网发展处于第二阶段   汽车保有量的不断提升使得中国车联网行业前景被看好,根据新思界产业研究中心发布的《2018年车联网行业深度市场调研及投资分析报告》数
[嵌入式]
物联网概念下的程序设计
各种生活中看似寻常的对象,正被尝试赋予连网的能力,而能和外在环境互动,提供许多有趣的应用可能性,然而,要建构出各种应用、落实在生活中,还是得倚靠软件。下面就随网络通信小编一起来了解一下相关内容吧。 物联网(Internet of Things)」是最近另一火红的名词。在市场上,有愈来愈多的装置、设备,打着物联网的名号,纷纷快速推出。什么是物联网呢?简单来说,传统的互联网,连上网的都是计算机,不论是大型还是小型,通通都是计算机,所以基本上是个计算机网络。 随着技术进步,大家都知道连移动电话也都具备上网能力了,这是因为现在的智能电话,里子其实也都是计算机,这都是拜计算机技术进步之赐。之后,连电视也上网,所以我们有了智能电视这个名词
[网络通信]
中国电信教你怎样避免大数据杀熟
12月30日消息,网购总比别人价格高?订酒店新号码比旧号码费用更低?打车同一条线路价格越来越高?如果你遇到过以上这些情况,那你可能遭遇到大数据杀熟了!那什么是大数据杀熟?大数据杀熟如何避免?来看看中国电信是怎么说的吧! 首先什么是大数据杀熟,简单来说,就是指同样的商品或服务,老客户看到的价格反而比新客户要贵出许多的现象。 接下来是了解大数据杀熟是如何实现的,具体如下: 1.消费记录:系统根据你之前购买的产品、购买频率,从而判断你的身份是宝妈,还是青年,以及哪些产品你接下来还会复购,提些价也不会影响。 2.搜索记录:如果你之前经常搜索某款产品或者将其加入了购物车,系统会判断你有较强的购买意愿,减少给你优惠价格的概率。 3购买行为
[手机便携]
直面云与大数据 老牌厂商LSI如何再焕新春
“沉舟侧畔千帆过,病树前头万木春”。在“岁月”这把“杀猪刀”面前,无数的曾推动社会变革的技术湮灭在了历史的浩瀚长河之中,取而代之的是更符合历史发展的新兴技术。在这之中,IT行业无疑是技术“淘汰率”最高的行业,几乎每天都有新兴的技术或者拥有新兴技术的公司诞生,而同样有着无数的公司因为跟不上时代的步伐而惨遭“淘汰”,如何在这个技术快速革新的时代顺应潮流,进而引领潮流是每个IT公司朝思暮想的目标。   自计算机技术诞生以来,衍生了无数的新兴技术与公司,也许曾经的他们红极一时,但随之凋零,现在还能被我们所熟知的并且保持旺盛生命力的公司少之又少。而现在,IT行业似乎再一次到了技术革新的时代,全球数据量的海量增长,尤其是以非结构化数据为主的
[网络通信]
直面云与<font color='red'>大数据</font> 老牌厂商LSI如何再焕新春
AI窥人(二):彻底“AI化”会变成什么样?
我们知道,美剧《西部世界》主要讲了一个“作为人工智能的接待员如何从被人类奴役的状态中觉醒,并最终反抗人类”的故事。 这一主题其实是有些老套的。不过随着剧情展开,这些觉醒后的接待员闯入了人类世界。而从AI的视角来审视人类,我们惊讶发现绝大多数人在被人工智能系统所掌控,成为幕后大数据公司的产品而已。 剧中有一个关于“人类意识”的隐喻,那就是复制出一个人类意识的代码只需要一万多行,可以说人类大多数行为和决策都是可以被算法预测的;但同时,这些代码一旦输入到仿真人体后,就会很快崩溃,可以想见人工智能的处理能力仍然无法执行人类充满矛盾的行为逻辑。 看来人类真是一个足够复杂的矛盾体呀。 随着智能时代的到来,越来越多的数字智
[嵌入式]
AI窥人(二):彻底“AI化”会变成什么样?
小广播
热门活动
换一批
更多
最新网络通信文章
更多精选电路图
换一换 更多 相关热搜器件
更多每日新闻
随便看看
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved