基础篇:Hadoop组件与生态系统介绍

MEI · 发表于 2014-10-23 11:10:54

从2014年开始，大数据逐渐发展壮大起来。越来越多的公司开始使用大数据，包括日常事务管理及复杂业务方案探究。大数据已经很快地从一个被夸大的词汇转变成了一个可行的技术，无论业务规模是大还是小。

大数据，简单来说就是存在于我们身边的大量数据，如智能终端、网络应用、社交媒体、聊天室、移动App、通讯记录、支付历史以及各种其他方式涉及到的数据。大数据技术对大量的信息进行整合、存储以及分析，数据量一般在PB级别。

这项技术已经完全改变了人们看待数据与数据库的方式，也改变了人们使用数据的方式。在军事方面，大数据主要用来预防损伤。在NBA，大数据主要用来捕捉并且分析一场比赛中数以百万计的个人动作。健康产业将大数据应用于治疗癌症与心脏病。汽车公司将这项技术实现自动驾驶以及汽车自主交流。

大数据正在改变这个世界。但，究竟在这之后存在着怎样的软件呢?是什么使得大数据技术不断发展与运行呢?

答案揭晓，Hadoop。

很多人认为hadoop就是大数据，但它不是。在hadoop出现之前就已经存在大数据，而且即使没有hadoop大数据也将继续存在。然而，hadoop现在是大数据行业的寡头。hadoop与大数据二者混用是有原因的——很多人都这样用。你可以自己去找找看哪些大数据公司不使用hadoop。

Hadoop究竟是什么?

它是一个“软件库”，使用者可以通过它获得处理大批数据的能力，即“使用简单编程模型在计算机集群上处理大量数据”。换句话说，它使公司有能力对大批数据进行汇总、存储与分析。

另外，理解大数据很重要的一点在于它是一个“软件库”。大量的程序库补充了Hadoop基本框架，给予各个公司所需的特定工具，以获得期望的hadoop结果。
让我们来看一下hadoop生态系统。相关资源及更多信息参见hadoop网站。

Hadoop项目包含了各种模块——Hadoop通用库、hadoop分布式文件系统、Hadoop YARN 与Hadoop MapReduce。这些系统的整合，支撑了我们下面提到的其他hadoop项目，赋予了大数据处理实时自动任务调度和集群资源管理能力。

其他项目提供了特定的服务，完善了整个 hadoop生态系统。

Apache Hive：“一个提供数据汇总与即席查询的数据仓库”。该系统是一个强大的查询工具，并能仅实时的得到查询结果。

Apache Spark: Apache Spark是一个通用计算引擎，能对大规模数据进行快速分析。Spark建立在HDFS之上，而不依赖于MapReduce，它使用了自己的数据处理框架。Apache Spark通常的使用场景，包括实时查询、事件流处理、迭代计算、复杂操作与机器学习。

Apache Ambari: Ambari的目的在于帮助管理hadoop。它能够为许多hadoop生态环境中的工具提供支持，包括Hive, HBase, Pig, Sqoop 与Zookeeper。该工具的特征在于有一个控制面板，能够跟踪集群健康状态，帮助诊断性能问题。

Apache Pig: Pig是一个平台工具，它支持一种处理大数据集的查询语言。

Apache HBase: HBase是一个在HDFS之上运行的非关系型数据库管理系统。建立HBase的目的在于处理大数据项目中的稀疏数据集。

其他常见的hadoop项目包括：Avro, Cassandra, Chukwa, Mahout与Zookeeper。

通过构建hadoop，使用者能够获得大量工具和资源，从而深度定制他们的大数据平台，以适应自己的业务所需。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

基础篇:Hadoop组件与生态系统介绍