Hadoop发行版本提供商目前,除了Apache Hadoop外, HortonWorks、Cloudera和MapR三驾马车在发布版本上差不多齐头并进。虽然,在此期间也出现了其他的Hadoop发行版本。比如EMC公司的Pivotal HD、IBM的InfoSphere BigInsights。通过Amazon Elastic MapReduce(EMR),Amazon甚至在其云上提供了一个托管的、预配置的解决方案。 虽然很多别的软件提供商没有开发自己的Hadoop发行版本,但它们和某一个发行版本提供商相互合作。举例来说,Microsoft和Hortonworks相互合作,特别是合作将Apache Hadoop引入到Windows Server操作系统和Windows Azure云服务中。另外一个例子是,Oracle通过将自己的软硬件与Cloudera的Hadoop发行版本结合到一起,提供一个大数据应用产品。而像SAP、Talend这样的软件提供商则同时支持几个不同的发行版本。 如何选择合适的Hadoop发行版本?本文不会评估各个Hadoop的发行版本。然而,下面会简短地介绍下主要的发行版本提供商。在不同的发行版本之间一般只有一些细微的差别,而提供商则将这些差别视为秘诀和自己产品的与众不同之处。下面的列表解释了这些差别:
上面的发行版本都能灵活地单独使用或是与不同的大数据套件组合使用。而这期间出现的一些其它的发行版本则不够灵活,会将你绑定至特定的软件栈和(或)硬件栈。比如EMC的Pivotal HD原生地融合了Greenplum的分析数据库,目的是为了在Hadoop,或Intel的Apache Hadoop发行版本之上提供实时SQL查询和卓越的性能,Intel的Apache Hadoop发行版本为固态驱动器进行了优化,这是其他Hadoop公司目前还没有的做法。 所以,如果你的企业已经有了特定的供应方案栈,则一定要核查它支持哪个Hadoop发行版本。比如,如果你使用了Greeplum数据库,那么Pivotal就可能是一个完美的选择,而在其他情况下,可能更适合采取更加灵活的解决方案。例如,如果你已经使用了Talend ESB,并且你想使用TalenD Big Data来启动你的大数据项目,那么你可以选择你心仪的Hadoop发行版本,因为Talend并不依赖于Hadoop发行版本的某个特定提供商。 为了做出正确的选择,请了解各个发行版本的概念并进行试用。请查证所提供的工具并分析企业版加上商业支持的总费用。在这之后,你就可以决定哪个发行版本是适合自己的。 何时使用Hadoop发行版本?由于发行版本具有打包、工具和商业支持这些优点,所以在绝大多数使用情形下都应使用Hadoop的发行版本。使用普通的(原文为plan,应为plain)Apache Hadoop发布版本并在此基础之上构建自己的发行版本的情况是极少见的。你会要自己测试打包,构建自己的工具,并自己动手写补丁。其他一些人已经遇到了你将会遇到的同样问题。所以,请确信你有很好的理由不使用Hadoop发行版本。 然而,就算是Hadoop发行版本也需要付出很大的努力。你还是需要为自己的MapReduce作业编写大量代码,并将你所有的不同数据源集成到Hadoop中。而这就是大数据套件的切入点。 大数据套件你可以在Apache Hadoop或Hadoop发行版本之上使用一个大数据套件。大数据套件通常支持多个不同的Hadoop发行版本。然而,某些提供商实现了自己的Hadoop解决方案。无论哪种方式,大数据套件为了处理大数据而在发行版本上增加了几个更进一步的特性:
大数据套件提供商大数据套件的数目在持续增长。你可以在几个开源和专有提供商之间选择。像IBM、Oracle、Microsoft等这样的大部分大软件提供商将某一类的大数据套件集成到自己的软件产品组合中。而绝大多数的这些厂商仅只支持某一个Hadoop发行版本,要么是自己的,要么和某个Hadoop发行版本提供商合作。 从另外一方面来看,还有专注于数据处理的提供商可供选择。它们提供的产品可用于数据集成、数据质量、企业服务总线、业务流程管理和更进一步的集成组件。既有像Informatica这样的专有提供商,也有Talend或Pentaho这样的开源提供商。某些提供商不只支持某一个Hadoop发行版本,而是同时支持很多的。比如,就在撰写本文的时刻,Talend就可以和Apache Hadoop、Cloudera、Hortonworks、MapR、Amazon Elastic MapReduce或某个定制的自创发行版本(如使用EMC的Pivotal HD)一起使用。 如何选择合适的大数据套件?本文不会评估各个大数据套件。当你选择大数据套件时,应考虑几个方面。下面这些应该可以帮助你为自己的大数据问题作出合适的抉择:
现在,你了解了Hadoop不同选择之间的差异。最后, 让我们总结并讨论选择Apache Hadoop框架、Hadoop发行版本或大数据套件的场合。 下面的“决策树”将帮助你选择合适的一种: Apache:
发行版本:
大数据套件:
结论Hadoop安装有好几种选择。你可以只使用Apache Hadoop项目并从Hadoop生态系统中创建自己的发行版本。像Cloudera、Hortonworks或MapR这样的Hadoop发行版本提供商为了减少用户需要付出的工作,在Apache Hadoop之上添加了如工具、商业支持等特性。在Hadoop发行版本之上,为了使用如建模、代码生成、大数据作业调度、所有不同种类的数据源集成等附加特性,你可以使用一个大数据套件。一定要评估不同的选择来为自己的大数据项目做出正确的决策。 |