北京9月27-30日Cloudera Administrator Training for Apache Hadoop(CCAH) 上海9月27-30日Cloudera Administrator Training for Apache Hadoop(CCAH) 北京10月17-20日Cloudera Data Analyst Training 上海10月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175) 【其他课程安排请咨询】400-679-6113 Cloudera大数据 478790619 课程内容: 【Cloudera Apache Hadoop管理员课程】 课时:4天 学习系统管理的概念和Apache Hadoop的最佳实践, 从安装和配置到负载均衡和调优。 这个4天的的课程通过动手时间来赋予你部署的经验, 以及更多的安全方面的经验和故障排除。 课程结束后,学员被鼓励去参加Cloudera和Apache Hadoop管理员(CCAH)考试。 【课程内容】 1、Hadoop分布式文件系统(HDFS) 2、YARN/MapReduce的工作原理 3、如何优化Hadoop机群所需要的硬件配置 4、搭建Hadoop机群所需要考虑的网络因素 5、Hadoop机群维护和控制 6、如何利用Hadoop配置选项进行系统性能调优 7、如何利用FairScheduler为多用户提供服务级别保障 8、Hadoop机群维护和监控 9、如何使用Flume从动态生成的文件加载到Hadoop 10、如何使用Sqoop从关系型数据加载数据 11、Hadoop生态系统工具(如Hive、Impala、Pig和Base) 【学员基础】 具备基本Linux系统管理经验。不需要事先掌握Hadoop相关知识。 【授课形式】 案例教学+上机实践 【Cloudera Apache Hadoop开发者课程】 课时:4天 【课程内容】 什么是Spark? 回顾:从Hadoop MapReduce到Spark 回顾:HDFS 回顾:YARN spark概述 spark Shell的使用 RDDS(弹性分布式数据集) Spark中的函数式编程 创建RDDs 其它通用RDD操作 键值对RDD(Pair RDDs) Map-Reduce 其它键值对RDD(Pair RDDS)操作 Spark应用程序vs. Spark Shell 创建SparkContext 建立Spark应用程序(Scala和java) 运行Spark应用程序 Spark应用程序网页用户界面(Web UI) 配置Spark属性 日志记录 回顾:集群上的Spark RDD分区 基于文件RDDs的分区 HDFS和数据本地性 执行并行操作 阶段和任务 RDD沿袭 RDD持久化概述 分布式持久化 Spark Streaming概述 实例:流请求计数 DStreams 开发Spark Streaming应用程序 多批处理操作 状态操作 滑动窗口操作 高级数据源 通用的Spark使用案例 Spark中的迭代算法 图处理与分析 机器学习 实例:K-means 共享变量:广播变量(Broadcast Variables) 共享变量:累加器(Accumulators) 常见性能问题 诊断性能问题 SparkSQL和SQL Context 创建DataFrames DataFrames转化和查询 保存DataFrames DataFrames和RDDS SparkSQL,Impala和Hive-on-Spark的比较 【学员基础】 具备项目经验;熟悉Python与Scala;熟悉MySQL会有帮助 【授课形式】 案例教学+上机实践
|