去年我们可能还在讨论大数据这个概念,今年我想很多企业和厂商已经开始行动了。大数据能掘到多少金子,我觉得这都是后话,目前紧要关 头是迎接大数据的到来,如果你接不住大数据那么你在未来的企业市场将会被淘汰。这不是危言耸听,我们看到现在生成数据的设备在增加,个人数字设备、企业计 算系统产生的数据量远远超过10年前,是1996年的180倍。文件(非结构化数据)本身的大小在发生变化,从600MB的RMVB到了30GB的蓝光 1080P视频,企业数据量增加,造成的数据库庞大。这三点无疑都是迫使企业进入大数据时代的原因。 我们知道大数据的4v理论,数量(Volume)、多样性(Variety)、速度(Velocity)和真实性 (Veracity),为我们制定大数据的策略提供了很好的方向。但同时我们在处理大数据的时候还是面临着很多问题,就目前大数据处理的现状来看,基本上 处于以下几种状态。 大数据处理现状 1、大数据处理平台以Hadoop为主 目前大数据的处理平台以Hadoop为主,都是自建Hadoop集群或使用Amazon Elastic 2、大数据处理技术复杂 大数据的处理技术纷繁复杂,仍然处于产业变革早期的战国时代。由于传统的OLAP和数仓的延续性,Hive 3、Hadoop尚难成为公共云服务 为什么说Hadoop很难成为公共云服务呢,原因有以下几个方面,第一Hadoop的安全体系局限在企业内网,缺乏多租户的支持。第二直接暴露 HDFS文件系统,MapReduce和Hive很难做到多用户数据安全。第三数据文件格式过于复杂多样,维护成本高,保持数据兼容比较困难。 综上三点目前大数据的现状,我们可以看出,大数据处理系统的技术门槛很高,从自备发电机到公共电网还有很长的路要走。而市场则需要安全性、可用性、数据正确性都有保障,并且功能完整的一体化大数据处理服务。 |