搜索
查看: 2062|: 0

Hadoop最佳实践案例分享

[复制链接]

322

主题

0

回帖

1208

积分

网站编辑

积分
1208
发表于 2014-10-23 11:39:17 | 显示全部楼层 |阅读模式
      对很多公司而言,Hadoop框架才刚刚开始启用,一些最佳实践的例子也是最近才显现出来。

      思科系统公司首席数据架构师Piyush Bhargava表示,如何选择Hadoop发行版,以及如何让Hadoop和MapReduce与现存系统融合是公司启用Hadoop时面临的主要困境。他建议公司在投入生产时,需要考虑可行性。

      Bhargava所从事的的开发Hadoop的工作是思科总体信息计划的一部分,有了Hadoop,公司就可以更有效地支持各种应用案例,管理者也能从数据中获取更大的价值。

Hadoop最佳实践

      Bhargava和他的团队已经开始了企业级Hadoop平台的创建。首要任务便是减轻数据仓库的工作负载。一些Hadoop用户案例已经投入市场,比如 集成线下和线上客户信息。虽然现在Hadoop的规模还很小,但在接下来两年里,它会呈指数增长。这需要开发人员把外部Hadoop资源集中到中央资源 池。

      Bhargava认为,今天的Hadoop就像90年代的ERP,终将成为企业的核心分析工具,因此现在就要把它集成到组织中来。

      经过努力,思科工作负载的管理取得了成功。Bhargava谈到,Hadoop的管理一定要从整个集群着眼,不能只管某个单独的工作。为了管理好Hadoop、传统数据仓库和其他系统,思科已经建立了一套数据管理日程。

      除了工作负载管理之外,云计算和人员的构建也是实现Hadoop最佳实践的关键。

      和其他所有工作一样,Hadoop也需要完善正确的团队建设。因为Hadoop很多工作需要团队合作完成,更像是大型机时代,所以团队对Hadoop来讲更重要。

      管理安全服务供应商Solutionary的软件工程师总监Scott Russom表示:“我的数据库团队正需要有编程头脑的人,从MapReduce来的COBOL(通用商务语言)编程人员很受欢迎。”

      同时,云计算是实现Hadoop的一种方式。美国气候股份有限公司在Hadoop中就部署了集成私有云和公有云的架构。其工程师总监Andrew Mutz表示,通过内部部署Hadoop集群,公司能够快速试验气候模型,尽快得出结论,同时了解如何安全地扩展。之后,Hadoop就可以移向云端了。

      他说:“这种内部部署与云计算结合的方式很有效。我们直接从数据来源开展工作,避免了延迟。”

      对于思科的Bhargava来说,Hadoop管理最佳实践来源于好的规划。“你经常会参加一些会议,看各种绚丽的产品,但最后,你需要脚踏实地的考量。需要考虑到它的可扩展性,在规划一开始,就要考虑到它日后如何增长。”

      上述公司采用的都是MapR发行的Hadoop,因为它更加关注Hadoop的管理。这是Apache基金会发行Hadoop之外,较早提供Hadoop发行版的公司。

玩转Hadoop工具

      Forrester的分析师Mike Gualtieri认为其他相应技术也需要随着Hadoop的发展而发展,比如安全、扩展性、高可用性等领域的技术。

      他提醒道,Hadoop还处在初级阶段。Gualtieri表示最近的一项Forrester调查显示,只有16%的受访者正在使用Hadoop,很多人还只是在观望。总体来讲,Hadoop还只是一个“很潮的工具”,只有一部分先行者在使用。

      《跨越鸿沟》(Crossing the Chasm)的作者Moore在书中指出,Hadoop软件生态系统有很多工具,包括Hive、Accumulo、Giraph、Cassandra和Spark等,要是你不能玩转这些工具,你就不能算是一个先行者。

      Moore认为,Hadoop现在还很像是业界领导者的资助项目。不过Hadoop已经势不可挡,大规模的使用指日可待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-15 17:43 , Processed in 0.098011 second(s), 25 queries .

快速回复 返回顶部 返回列表