数据掘金之旅
数据大杂烩看起来像什么?
美光商务拓展经理Eric Caward说,他将数据集合想象成一座山,其中每块泥土和岩石均代表一条信息。乍一看,这座山像是一堆大数据,从某种角度来讲,其潜在价值可能就像一堆土。但精明的矿工知道,在某些山里可以找到金箔。
对于数据山来讲,这些金箔代表可用于获得深入洞见的宝贵信息。例如,住宅温度读数的集合看起来可能不像值得关注的大数据山,但这些数据的内在趋势可能非常有用。如果住宅在一天中的某段时间温度过高,那么跟踪这一趋势可以帮助业主更好地优化供暖系统,节省能源开销。
利用砂矿开采(黄金积聚在疏松物质中,需要用水将其提取出来),矿工开始淘金以获得金箔。然而,虽然淘金的技巧很简单,但这并不是从大量沉积物中获取黄金(就像从大数据山中获取正确信息一样)的最佳方法。正因如此,更高效的矿工改用洗矿槽和隔滤装置来处理大量沉积物,这样可以更快地找到他们的宝物。
那么,计算机如何才能变成技术娴熟的矿工,高效地筛选大数据山以找到并识别这些金箔呢?需要利用快速数据分析,高效提取重要信息。云中的温度读数列表表面看来似乎没什么价值,但如果计算机系统可以对其进行扫描,识别其中的趋势并给出解决方案,就能找到黄金。
为了以最佳方式处理这些快速数据,计算机系统需要能够最大限度降低延迟的高效存储。如果只是隐藏在泥土里,这些趋势无法给任何人提供帮助。幸运的是,动态随机存取存储器(DRAM)能够以最快速度在系统中移动数据。
利用大数据洞悉快速数据
《企业家》2016年的一篇文章提到,数据集合正以惊人的速度不断增长。到2020年,每个在线用户每秒将产生1.7MB新数据,届时数据将达到44ZB。
随着每天监控人体重要器官的技术能力不断提高(例如检测心率和睡眠模式等数据的小型可穿戴设备,或是监控血糖水平和血压的创新医疗技术),医疗机构能够以革新方式推动预防医学向前发展。随着物联网设备(以无线方式连接至网络并且可以传输数据的非标准计算设备)的大量普及,以及用于跟踪记录患者各种健康指标的工具不断增加,每分钟创建的大数据越来越多。
广告商在决定向某个用户的社交媒体新闻资讯中投放哪个赞助广告时,必须要筛选所有可用数据,找到能够有效吸引该用户的具有相关性的信息。如果能够选择适合的广告,其价值对广告商而言不亚于纯金。
当人工智能(AI)程序查看个人资料时,它会查看几部分浏览数据:可能是购物网站的浏览历史记录、视频网站、订阅框和大量搜索引擎搜索记录的组合。快速数据可以迅速将这些信息串连在一起,查找在线购物车中的汽车用品,记录浏览过的关于“如何更换2012福特探险者刹车片”的视频,并订阅相应的DIY项目文章。这样,该程序就能轻松地为当地汽车零配件商店制作广告。随着AI变得更加智能,数据变得更快速,数据将会显示您已经购买了刹车片,因此广告可能会重点推介您完成更换操作可能需要的十字扳手和千斤顶支架。
“如果这个程序能够利用非常快速的存储系统即时获取和解读数据,并且可以立即在网站上推送相关广告,那么用户很可能会点击购买。” Caward说。
为了以足够快的速度获取数据集合,运行这些AI程序和机器学习程序的系统需要拥有足够高的带宽,以便从云端存储的所有大数据中找出某个特定的社交媒体个人资料和浏览器历史记录,识别重要数据并在靠近处理单元的位置对其进行分析。重要信息(通常称之为热数据)距离系统的处理单元越近,用户得到的回报价值就越高。这就是美光科技斥巨资打造更快、更高效的存储解决方案的原因。
从硬盘到固态硬盘,提高处理速度
可靠的DRAM并不是加快系统内数据移动速度的唯一因素。系统可以通过从传统硬盘(HDD)迁移到固态硬盘(SSD)实现出色的毫秒级速度。标准硬盘需要更多技术层面的移动来获取信息,而且必须依靠实际旋转来读取数据,这会花费大量时间。
按照 Caward 所说,迁移到闪存(SSD)后,“无需实际移动任何东西,因此可以大大提高数据访问速度。”
如今,处理器在不断突破速度极限,将3千兆赫或4千兆赫的标准速度提升到4.5甚至5千兆赫。Caward说,如果 “以纳秒级速度处理数据,但却需要等待几毫秒而不是几微秒才能获得数据,那么CPU在这段额外的等待时间内无法处理任何内容”。为了避免在获得结果之前浪费这些时间,我们将存储产品的实际位置设计得越来越靠近处理单元,并通过GDDR5、GDDR5X和GDDR6存储来满足高性能计算的需求。
Caward 解释说,为了在低延迟、高带宽的条件下尽可能快速移动这些数据,存储就“焊在计算单元旁边”。
将快速数据应用于当今的技术
随着更快的存储解决方案陆续面世并日益完善,机器学习和AI领域的应用层出不穷,包括Caward所说的这一代的“圣杯”——自动驾驶汽车。这类汽车中的传感器持续监控多种输入,即交通信号、位置感知以及与其他物体的距离(尤其是汽车与人之间的距离),并分析针对特定情形应用哪些操作。
“从根本上讲,是要将海量信息输入汽车的超级计算机中,然后处理这些数据,”Caward说道。“剔除无用的数据,使数据更易于管理,要进行一些内部处理。可能要通过连接多个网络进入云环境,进行更多处理,然后做出相应的反应,从而以安全的方式到达目的地。”
快速数据在医生的办公室也可以创造奇迹。无需向3000名医生发送CAT扫描件并让他们分别对细胞进行分析,而只需将一份CAT扫描件提交至神经网络,该网络已通过分析多年来有价值的良性和恶性细胞资料,学会了如何识别恶性细胞。
“这些检测速度将不断提升,”Caward说。“一旦将其应用于计算机,拥有了快速数据,就可以用于实现自动驾驶。”
美光科技正在推行提升数据处理速度的产品,这有助于拓展此类应用。处理器变得越来越快,并将持续计算越来越多的信息。但是,如果26核处理器获得的数据只够占用一个内核,其他内核都将没有用处。大数据和快速数据可以实现更多价值,但前提是它们能够充分发挥潜能。
“拥有这块处理逻辑的硅芯片,它可以让一切顺畅运行,”Caward说。“但要让它达到应有的运行速度,必须尽可能快地传输数据。否则,就会浪费它的潜在价值。”
使用美光DRAM和固态硬盘可以将这些数据快速传输到CPU,避免浪费这种潜在价值。系统可以整理海量大数据,找出内部隐藏的宝贵数据,为创新和洞见开辟道路。