关于大数据：三种处理现状分析

菜鸟之家 · 发表于 2014-9-23 11:28:23

      在大数据时代下，大数据蕴含巨大宝藏，究竟大数据能掘到多少金子，我觉得这都是后话，目前紧要关头是迎接大数据的到来，如果你接不住大数据那么你在未来的企业市场将会被淘汰。

      这不是危言耸听，我们看到现在生成数据的设备在增加，个人数字设备、企业计算系统产生的数据量远远超过10年前，是1996年的180倍。文件(非结构化数据)本身的大小在发生变化，从600MB的RMVB到了30GB的蓝光1080P视频，企业数据量增加，造成的数据库庞大。这三点无疑都是迫使企业进入大数据时代的原因。

      我们知道大数据的4v理论，数量(Volume)、多样性(Variety)、速度(Velocity)和真实性(Veracity)，为我们制定大数据的策略提供了很好的方向。但同时我们在处理大数据的时候还是面临着很多问题，就目前大数据处理的现状来看，基本上处于以下几种状态。

   大数据处理现状

      1、大数据处理平台以Hadoop为主

      目前大数据的处理平台以Hadoop为主，都是自建Hadoop集群或使用AmazonElasticMapReduce服务，而Google的BigQuery由于种种限制推广得并不理想。微软的Cosmos/Dryad/Scope由于体系仅限于内部使用，也不能成为大数据的平台，同时微软对外也支持hostingHadoop。

      2、大数据处理技术复杂

大数据的处理技术纷繁复杂，仍然处于产业变革早期的战国时代。由于传统的OLAP和数仓的延续性，HiveSQL有很大市场，但Hive的数据正确性和Bug仍然比较多。而HadoopMapReduce又过于复杂灵活，写出高效Job比较困难。Pig、FlumeJava等分布式编程模型技术的门槛较高，所以推广起来也比较困难。在数据挖掘和图算法领域虽然涌现出了Mahout、Hama、GoldenOrb等大量开源平台，但都不够成熟。至于基于Hadoop的工作流系统Oozie和数据传输系统Sqoop都需要开发人员单独部署。都是各有利弊，还没有一个很好的完美的解决方案。

      3、Hadoop尚难成为公共云服务

      为什么说Hadoop很难成为公共云服务呢，原因有以下几个方面，第一Hadoop的安全体系局限在企业内网，缺乏多租户的支持。第二直接暴露HDFS文件系统，MapReduce和Hive很难做到多用户数据安全。第三数据文件格式过于复杂多样，维护成本高，保持数据兼容比较困难。

      综上三点目前大数据的现状，可以看出，大数据处理系统的技术门槛很高，从自备发电机到公共电网还有很长的路要走。而市场则需要安全性、可用性、数据正确性都有保障，并且功能完整的一体化大数据处理服务。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

关于大数据：三种处理现状分析

浏览过的版块