大数据部署应该思考的五个问题
2013-10-12 00:23 |来自: 网界网|
查看: 1889|
评论: 0
大数据是一个含糊的术语。因此,企业用户应该了解其含义,必须理解大数据实际上能做什么及其局限性是什么。在绘制大数据战略蓝图的时候,提出一些恰当的问题保证企业能够得到有用的信息是非常重要的。 企业担心落在竞争对手的后面和利用大数据实现各种业务目标的同行的后面。但是,在被大浪卷走之前,你要后退一步并且考虑五个问题以保证你走上正确的道路。 1、你的问题是什么? 这似乎是一个显而易见的问题。但是,感受到压力要成为数据驱动的企业的那些公司也许会冒进,不首先恰当地定义问题(或者机会)。你是不能把你需要的数据 放入Excel表格的商务分析师吗?你首先不能访问你的公司的大数据吗?你是负责减少查询返回的等待时间的首席信息官吗?你是对查询结果需要等待数天或者 数星期感到厌烦的非技术用户吗?你的数据是结构化的还是非结构化的?还是拥有上述所有问题? 当然,你可能面对的问题之一是预算,特别是在创业企业和中小企业中。数据仓库和专用硬件的价格让他们望而却步。如果可承受性是一个问题,你要根据在商品化硬件上运行的软件制定一个战略,不需要数据仓库。 2、你为免费(开源)软件支付的价格是什么? 围绕Hadoop一直有许多争论。虽然Hadoop对于某些企业需求来说是一个非常好的开源软件解决方案,但是,免费并不意味着不支付任何费用。Hadoop在商品化硬件上运行。由于它需要电源和网络连接,这就需要投资。 核心的Hadoop发布版是免费的开源软件。但是,有些厂商有专有的Hadoop发布版。即使开源软件发布版也有专有的插件管理工具。除非你从 Apache软件基金会下载Hadoop组件,否则,你会像使用商业软件一样遇到同样的软件许可证和厂商锁定等令人担心的问题。 我们不要忘记部署和管理这个技术所需要的数据科学家的工资。如果你有足够的资金支付IT和硬件费用,Hadoop也许对你非常合适。但是,Hadoop并非适用于一切需求。这就引出了下一个问题。 3、规模重要吗?(你的企业规模和你的数据的规模) 围绕大数据的谈话主要是PB级的数据。然而,大多数企业使用的数据仅达到TB级。当在TB级的范围内工作的时候,大型机器集群的开销也许不能得到投资回报。你会发现那个遗留的解决方案对于你的企业需求也许规模太大,是不必要的。 如果是在TB级范围内,你就是在使用一台服务器的范围之内。你可以使用一台服务的解决方案,从而降低成本和简化。仅仅在10年前,一台服务器只能处理GB级的数据。但是,现在的商品化硬件已经能够处理TB级的数据,从而提供了以前不能提供的选择范围。 4、你的数据在哪里? 你的大多数数据是在企业内部的,你的策略与大多数数据在云中的企业有所不同。例如,如果你的数据在亚马逊或者Rackspace的云服务中,那么,在那 个框架中运行大数据解决方案是有意义的,因为数据很容易在那个环境中迁移。然而,如果你的大多数数据在企业内部并且你正在考虑在云中运行你的大数据查询, 你要三思。大数据是很难迁移并且保持同步的。当上载到云的时候会有许多挑战。在这种情况下,大数据最好保持在企业内部的环境中。 5、各种技术有什么区别? 目前有三种类型的技术用于大数据分析:软件数据库设备、硬件数据库设备和分布式数据库。 软件数据库设备部署在商品化硬件上,一般部署在一台计算机上,因此,价格便宜,结构简单。这种设备的例子包括SQL服务器或者MySQL等关系数据库以及SiSense的ElastiCube技术。 硬件数据库设备包括与专有硬件(也就是价格昂贵的硬件)捆绑销售的专有软件。专有硬件的技术规格比商品化硬件更强大,因此价格可以高50倍。 分布式数据库是指部署在计算机集群中的软件,可以平行运行资源密集型的处理操作。这包括复杂的架构。 你可能遇到的其它技术都是不能直接处理大数据的规模较小的技术,如内存处理或者联机分析处理(OLAP,On Line Analytical Processing)。上载到这些数据中心技术的数据在上载之前要显著删减,一般采用上述的一种大数据技术。 |
免责声明:
除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除
上一篇:服务商云间蒸发 我们该吸取什么教训?
下一篇:云计算数据中心运维管理要点
最新评论
最新新闻
最新新闻
要闻推荐
要闻推荐
今日视点
今日视点