上海8月26-29日Cloudera Administrator Training forApache Hadoop(CCA131) 深圳9月11-14日Cloudera Developer training for Sparkand Hadoop(CCA-175) 深圳9月16-19日Cloudera Administrator Training forApache Hadoop(CCA131) 北京9月18-21日Cloudera Administrator Training forApache Hadoop(CCA131) 北京9月21-24 Cloudera Developer training for Spark and Hadoop(CCA-175) 上海9月27-30日Cloudera Developer training for Sparkand Hadoop(CCA-175) 成都10月17-20日Cloudera Administrator Training forApache Hadoop(CCA131) 重庆12月19-22日Cloudera Developer training for Sparkand Hadoop(CCA-175) 每门课课时:28h/4天 Q1438118790 Cloudera Developer Training for Sparkand Hadoop(CCA-175)课程介绍 Hadoop 及生态系统介绍
• ApacheHadoop 概述 • 数据存储和摄取 • 数据处理 • 数据分析和探索 • 其他生态系统工具 • 练习环境及分析应用场景介绍
Apache Hadoop 文件存储
• 传统大规模系统的问题 • HDFS 体系结构 • 使用 HDFS • ApacheHadoop 文件格式
Apache Hadoop 机群上的数据处理
• YARN 体系结构 • 使用 YARN
使用 Apache Sqoop 导入关系数据
• Sqoop 简介 • 数据导入 • 导入的文件选项 • 数据导出
Apache Spark 基础
• 什么是 Apache Spark• 使用 Spark Shell • RDDs( 可恢复的分布式数据集) • Spark 里的函数式编程
Spark RDD
• 创建 RDD • 其他一般性 RDD 操作
使用键值对 RDD
• 键值对 RDD • MapReduce • 其他键值对 RDD 操作
编写和运行 Apache Spark 应用
• Spark 应用对比 Spark Shell• 创建 SparkContext • 创建 Spark 应用(Scala 和 Java) • 运行 Spark 应用• Spark 应用 WebUI
配置 Apache Spark 应用
• 配置 Spark 属性• 运行日志
Apache Spark 的并行处理
• 回顾:机群环境里的 Spark • RDD 分区 • 基于文件 RDD 的分区• HDFS 和本地化数据 • 执行并行操作 • 执行阶段及任务
Spark 持久化
• RDD 演变族谱 • RDD 持久化简介 • 分布式持久化
Apache Spark 数据处理的常见模式
• 常见 Spark 应用案例• 迭代式算法 • 机器学习 • 例子:K - Means
DataFrames 和 Spark SQL
• Apache SparkSQL 和 SQL Context • 创建 DataFrames • 变更及查询 DataFrames• 保存 DataFrames • DataFrames 和 RDD • Spark SQL 对比 Impala 和Hive-on-Spark • Spark 2.x 版本上的 ApacheSpark SQL
Apache Kafka
• 什么是 Apache Kafka• Apache Kafka 概述 • 如何扩展 ApacheKafka • Apache Kafka 机群架构 • Apache Kafka命令行工具
使用 Apache Flume 采集实时数据
• 什么是 Apache Flume• Flume 基本体系结构 • Flume 源 • Flume 槽 • Flume 通道 • Flume 配置 集成 Apache Flume 和 Apache Kafka
• 概要 • 应用案例 • 配置 Apache Spark Streaming:DStreams 介绍
• Apache SparkStreaming 概述 • 例子:Streaming 访问计数 • DStreams • 开发 Streaming 应用
Apache Spark Streaming:批处理
• 批处理操作 • 时间分片 • 状态操作 • 滑动窗口操作 Apache Spark Streaming:数据源
• Streaming 数据源概述 • Apache Flume和Apache Kafka 数据源 • 例子:使用 Direct 模式连接 Kafka • 数据源 ClouderaAdministrator Training for Apache Hadoop(CCA131) 课程介绍 Apache Hadoop 介绍: Hadoop 动机、基本概念、Hadoop 核心部件 Hadoop 机群安装: 机群管理方案、Cloudera Manager 特性、Cloudera manager 安装、Hadoop (CDH) 安装 Hadoop 分布式文件系统 (HDFS): HDFS 特性、读写文件、NameNode 内存考虑、HDFS 安全简介、HDFS Web UI、使用 HDFS Shell YARN 上的 MapReduce 和 Spark: 计算平台在 Hadoop 里扮演的角色、YARN:机群资源管理器、MapReduce 概念、Apache Spark 概念、Yarn 上的计算平台、YARN Web UI 及 Shell、YARN应用运行日志 Hadoop 配置及服务运行日志: Cloudera Manager 配置管理机制、定位配置参数及进行配置变更、管理角色实例及添加服务、配置HDFS 服务务、配置 Hadoop 服务运行日志、配置YARN 服务 向 HDFS 导入数据: 使用 Flume 从外部数据源实时导入数据、使用 Sqoop 从关系数据库导入数据、REST 接口、导入数据的最佳实践 Hadoop 机群规划: 规划考虑因素、硬件选择、虚拟化选项、网络因素、节点配置 Hive,Impala 及 Pig 的安装及配置: Hive、Impala、Pig Hadoop 客户端及 Hue: 什么是 Hadoop 客户端、安装及配置 Hadoop 客户端、安装及配置 Hue、使用 Hue 进行身份验证及授权 机群高级配置: 高级配置参数、Hadoop 端口配置、HDFS 机柜感知配置、HDFS 高可靠性配置 Hadoop 安全: Hadoop 安全的重要性、Hadoop 安全性概念、Kerberos 简介、使用 Kerberos 保护 Hadoop 机群、其他安全特性 资源管理: 使用静态服务池配置 Linux cgroup、公平调度器、配置动态资源池、YARN 内存及 CPU 设置、Impala查询调度 机群维护: 检查 HDFS 状态、机群间复制数据、添加/移除机群节点、机群数据负载平衡、目录快照、机群升级 机群监控及排错: Cloudera Manager 监控特性、监控 Hadoop 机群、Hadoop 机群排错、常见配置不当问题
|