随着大数据在国内的火热,越来越多的开发人员准备入行。但作为外行人员,对大数据的了解并不清晰,不确定自己目前从事的行业、掌握的技能是否能够达到学习大数据的要求。 hadoop作为大数据行业使用的主要框架,想进入大数据行业学习Hadoop开发是必须的。 让Hadoop跑起来大概流程 Hadoop框架自身是由Java语言编写,天生支持使用Java语言编写作业。在实际生产环境中也多使用其他语言如Python,此时需要借助Hadoop自带的一些工具。 Hadoop运行在Linux环境中,想在本地安装Hadoop需要先安装Linux系统。为了节省学习成本我们使用虚拟机在本地电脑模拟多台硬件搭建集群。 应该选择哪种语言进行作业? Java Hadoop本身由Java编写,对Java语言支持很好,但使用Java代码写起来非常繁琐冗长。 Python 在大数据的实际生产中,使用Python进行作业开发也非常普遍。Python语法结构清晰、开发迅速、维护成本低是它的优势。 假如使用Python进行作业开发,可借助Hadoop Streaming或者Pydoop。 具体需要掌握哪些基础技能? Linux 1、熟练使用linux常用命令及网络配置; 2、熟悉用户以及权限管理操作; 3、熟悉软件包以及系统命令管理; 4、掌握shell编程。 虚拟机 1、虚拟机的安装; 2、linux系统的安装; 3、虚拟机网络的配置。 1、掌握javaSE的基础技能; 2、不需要掌握java Web及各种框架知识。 掌握Python的基础语句、语法、函数等。 对于java和python的选择上,大家根据自身情况或者目标企业使用的语言来选择。 学习Hadoop首先要了解一下这3种搭建方式:单机模式、分布式模式和伪分布式模式,其中伪分布和完全分布要能够熟练掌握。 之后再学习Hadoop生态圈中各个组件的知识,包括MapReduce、Yarn、hdfs、hive、HBase、Flume、sqoop、zookeepe、Mahout等。 当你能完全掌握上述知识技能的时候,也就学会了Hadoop开发。 这是我转载的,忘记从哪转的了,希望作者君不要介意哈。
|