如何挑选合适的大数据或Hadoop平台?-大数据技术

如何挑选合适的大数据或Hadoop平台?

2013-10-21 00:37 | 查看: 6767| 评论: 0

Hadoop发行版本提供商

目前，除了Apache Hadoop外， HortonWorks、Cloudera和MapR三驾马车在发布版本上差不多齐头并进。虽然，在此期间也出现了其他的Hadoop发行版本。比如EMC公司的Pivotal HD、IBM的InfoSphere BigInsights。通过Amazon Elastic MapReduce（EMR），Amazon甚至在其云上提供了一个托管的、预配置的解决方案。

虽然很多别的软件提供商没有开发自己的Hadoop发行版本，但它们和某一个发行版本提供商相互合作。举例来说，Microsoft和Hortonworks相互合作，特别是合作将Apache Hadoop引入到Windows Server操作系统和Windows Azure云服务中。另外一个例子是，Oracle通过将自己的软硬件与Cloudera的Hadoop发行版本结合到一起，提供一个大数据应用产品。而像SAP、Talend这样的软件提供商则同时支持几个不同的发行版本。

如何选择合适的Hadoop发行版本？

本文不会评估各个Hadoop的发行版本。然而，下面会简短地介绍下主要的发行版本提供商。在不同的发行版本之间一般只有一些细微的差别，而提供商则将这些差别视为秘诀和自己产品的与众不同之处。下面的列表解释了这些差别：

Cloudera：最成型的发行版本，拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。
Hortonworks：不拥有任何私有（非开源）修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且，它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行。
MapR：与竞争者相比，它使用了一些不同的概念，特别是为了获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS（使用非开源的组件）。可以使用本地Unix命令来代替Hadoop命令。除此之外，MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。该公司也领导着Apache Drill项目，本项目是Google的Dremel的开源项目的重新实现，目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。
Amazon Elastic Map Reduce（EMR）：区别于其他提供商的是，这是一个托管的解决方案，其运行在由Amazon Elastic Compute Cloud（Amazon EC2）和Amzon Simple Strorage Service（Amzon S3）组成的网络规模的基础设施之上。除了Amazon的发行版本之外，你也可以在EMR上使用MapR。临时集群是主要的使用情形。如果你需要一次性的或不常见的大数据处理，EMR可能会为你节省大笔开支。然而，这也存在不利之处。其只包含了Hadoop生态系统中Pig和Hive项目，在默认情况下不包含其他很多项目。并且，EMR是高度优化成与S3中的数据一起工作的，这种方式会有较高的延时并且不会定位位于你的计算节点上的数据。所以处于EMR上的文件IO相比于你自己的Hadoop集群或你的私有EC2集群来说会慢很多，并有更大的延时。

上面的发行版本都能灵活地单独使用或是与不同的大数据套件组合使用。而这期间出现的一些其它的发行版本则不够灵活，会将你绑定至特定的软件栈和（或）硬件栈。比如EMC的Pivotal HD原生地融合了Greenplum的分析数据库，目的是为了在Hadoop，或Intel的Apache Hadoop发行版本之上提供实时SQL查询和卓越的性能，Intel的Apache Hadoop发行版本为固态驱动器进行了优化，这是其他Hadoop公司目前还没有的做法。

所以，如果你的企业已经有了特定的供应方案栈，则一定要核查它支持哪个Hadoop发行版本。比如，如果你使用了Greeplum数据库，那么Pivotal就可能是一个完美的选择，而在其他情况下，可能更适合采取更加灵活的解决方案。例如，如果你已经使用了Talend ESB，并且你想使用TalenD Big Data来启动你的大数据项目，那么你可以选择你心仪的Hadoop发行版本，因为Talend并不依赖于Hadoop发行版本的某个特定提供商。

为了做出正确的选择，请了解各个发行版本的概念并进行试用。请查证所提供的工具并分析企业版加上商业支持的总费用。在这之后，你就可以决定哪个发行版本是适合自己的。

何时使用Hadoop发行版本？

由于发行版本具有打包、工具和商业支持这些优点，所以在绝大多数使用情形下都应使用Hadoop的发行版本。使用普通的（原文为plan，应为plain）Apache Hadoop发布版本并在此基础之上构建自己的发行版本的情况是极少见的。你会要自己测试打包，构建自己的工具，并自己动手写补丁。其他一些人已经遇到了你将会遇到的同样问题。所以，请确信你有很好的理由不使用Hadoop发行版本。

然而，就算是Hadoop发行版本也需要付出很大的努力。你还是需要为自己的MapReduce作业编写大量代码，并将你所有的不同数据源集成到Hadoop中。而这就是大数据套件的切入点。

大数据套件

你可以在Apache Hadoop或Hadoop发行版本之上使用一个大数据套件。大数据套件通常支持多个不同的Hadoop发行版本。然而，某些提供商实现了自己的Hadoop解决方案。无论哪种方式，大数据套件为了处理大数据而在发行版本上增加了几个更进一步的特性：

工具：通常，大数据套件是建立像Eclipse之类的IDE之上。附加插件方便了大数据应用的开发。你可以在自己熟悉的开发环境之内创建、构建并部署大数据服务。
建模：Apache Hadoop或Hadoop发行版本为Hadoop集群提供了基础设施。然而，你仍然要写一大堆很复杂的代码来构建自己的MapReduce程序。你可以使用普通的Java来编写这些代码，或者你也可以那些已经优化好的语言，比如PigLatin或Hive查询语言（HQL），它们生成MapReduce代码。大数据套件提供了图形化的工具来为你的大数据服务进行建模。所有需要的代码都是自动生成的。你只用配置你的作业（即定义某些参数）。这样实现大数据作业变得更容易和更有效率。
代码生成：生成所有的代码。你不用编写、调试、分析和优化你的MapReduce代码。
调度：需要调度和监控大数据作业的执行。你无需为了调度而编写cron作业或是其他代码。你可以很容易地使用大数据套件来定义和管理执行计划。
集成：Hadoop需要集成所有不同类技术和产品的数据。除了文件和SQL数据库之外，你还要集成NoSQL数据库、诸如Twitter或Facebook这样的社交媒体、来自消息中间件的消息、或者来自类似于Salesforce或SAP的B2B产品的数据。通过提供从不同接口到Hadoop和后端的众多连接器，大数据套件为集成提供了很多帮助。你不用手工编写连接代码，你只需使用图形化的工具来集成并映射所有这些数据。集成能力通常也具有数据质量特性，比如数据清洗以提高导入数据的质量。

大数据套件提供商

大数据套件的数目在持续增长。你可以在几个开源和专有提供商之间选择。像IBM、Oracle、Microsoft等这样的大部分大软件提供商将某一类的大数据套件集成到自己的软件产品组合中。而绝大多数的这些厂商仅只支持某一个Hadoop发行版本，要么是自己的，要么和某个Hadoop发行版本提供商合作。

从另外一方面来看，还有专注于数据处理的提供商可供选择。它们提供的产品可用于数据集成、数据质量、企业服务总线、业务流程管理和更进一步的集成组件。既有像Informatica这样的专有提供商，也有Talend或Pentaho这样的开源提供商。某些提供商不只支持某一个Hadoop发行版本，而是同时支持很多的。比如，就在撰写本文的时刻，Talend就可以和Apache Hadoop、Cloudera、Hortonworks、MapR、Amazon Elastic MapReduce或某个定制的自创发行版本（如使用EMC的Pivotal HD）一起使用。

如何选择合适的大数据套件？

本文不会评估各个大数据套件。当你选择大数据套件时，应考虑几个方面。下面这些应该可以帮助你为自己的大数据问题作出合适的抉择：

简单性：亲自试用大数据套件。这也就意味着：安装它，将它连接到你的Hadoop安装，集成你的不同接口（文件、数据库、B2B等等），并最终建模、部署、执行一些大数据作业。自己来了解使用大数据套件的容易程度——仅让某个提供商的顾问来为你展示它是如何工作是远远不够的。亲自做一个概念验证。
广泛性：是否该大数据套件支持广泛使用的开源标准——不只是Hadoop和它的生态系统，还有通过SOAP和REST web服务的数据集成等等。它是否开源，并能根据你的特定问题易于改变或扩展？是否存在一个含有文档、论坛、博客和交流会的大社区？
特性：是否支持所有需要的特性？Hadoop的发行版本（如果你已经使用了某一个）？你想要使用的Hadoop生态系统的所有部分？你想要集成的所有接口、技术、产品？请注意过多的特性可能会大大增加复杂性和费用。所以请查证你是否真正需要一个非常重量级的解决方案。是否你真的需要它的所有特性？
陷阱：请注意某些陷阱。某些大数据套件采用数据驱动的付费方式（“数据税”），也就是说，你得为自己处理的每个数据行付费。因为我们是在谈论大数据，所以这会变得非常昂贵。并不是所有的大数据套件都会生成本地Apache Hadoop代码，通常要在每个Hadoop集群的服务器上安装一个私有引擎，而这样就会解除对于软件提供商的独立性。还要考虑你使用大数据套件真正想做的事情。某些解决方案仅支持将Hadoop用于ETL来填充数据至数据仓库，而其他一些解决方案还提供了诸如后处理、转换或Hadoop集群上的大数据分析。ETL仅是Apache Hadoop和其生态系统的一种使用情形。
决策树：框架vs.发行版本vs.套件

现在，你了解了Hadoop不同选择之间的差异。最后，让我们总结并讨论选择Apache Hadoop框架、Hadoop发行版本或大数据套件的场合。

下面的“决策树”将帮助你选择合适的一种：

Apache：

学习并理解底层细节？
专家？自己选择和配置？

发行版本：

容易的设置？
初学（新手）？
部署工具？
需要商业支持？

大数据套件：

不同数据源集成？
需要商业支持？
代码生成？
大数据作业的图形化调度？
实现大数据处理（集成、操作、分析）？

结论

Hadoop安装有好几种选择。你可以只使用Apache Hadoop项目并从Hadoop生态系统中创建自己的发行版本。像Cloudera、Hortonworks或MapR这样的Hadoop发行版本提供商为了减少用户需要付出的工作，在Apache Hadoop之上添加了如工具、商业支持等特性。在Hadoop发行版本之上，为了使用如建模、代码生成、大数据作业调度、所有不同种类的数据源集成等附加特性，你可以使用一个大数据套件。一定要评估不同的选择来为自己的大数据项目做出正确的决策。

免责声明：除非特别声明，文章均为投稿或网络转载，仅代表作者观点，与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如果本文内容有侵犯你的权益，请发送信息至ab12-120@163.com，我们会及时删除

12 / 2 页

收藏分享邀请

上一篇：大数据与拓扑学共通的一些分析算法 下一篇：你不了解的世界，Google大数据技术架构探秘