线上:长期开课,时间自行咨询 线下北京、上海、广州定期开课: 上海6月20-23日Cloudera Administrator Training for Apache Hadoop(CCA131) 上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175) 北京7月18-21日Cloudera Administrator Training for Apache Hadoop(CCA131) 上海7月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175) 上海8月15-18日Cloudera Training for Data Analyst(CCA159) 北京8月21-24日Cloudera Developer training for Spark and Hadoop(CCA-175) 上海8月28-31日Cloudera Administrator Training for Apache Hadoop(CCA131) 广州9月5-8日Cloudera Administrator Training for Apache Hadoop(CCA131) 广州9月11-14日Cloudera Developer training for Spark and Hadoop(CCA-175) 北京9月18-21日Cloudera Administrator Training for Apache Hadoop(CCA131) 上海9月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175) 每门课课时:28h/4天 咨询:Q1438118790 Cloudera Developer training for Spark and Hadoop(CCA-175)课程介绍 Hadoop 及生态系统介绍 • 传统大规模系统的问题 • Hadoop ! • Hadoop 生态系统 Hadoop 体系结构及 HDFS • 机群环境下的分布式处理 • 存储:HDFS 体系结构 • 存储:使用 HDFS • 资源管理:YARN 体系结构 • 资源管理:使用 YARN 使用 Apache Sqoop 导入关系数据 • Sqoop 简介 • 数据的基本导入导出 • 减少传输的数据量 • 改善 Sqoop 性能 • Sqoop 2 Impala 及 Hive 介绍 • 简介 • 为什么使用 Impala 及 Hive • Hive 和传统数据库的比较 • Hive 应用场景 使用 Impala 及 Hive 管理数据及建模 • 数据存储 • 创建数据库及表 • 表数据导入 • HCatalog • Impala 元数据缓存 数据格式 • 选择文件格式 • 支持不同文件格式的工具 • Avro 数据格式定义模式 • 在 Hive 及 Sqoop 里使用 Avro • Avro 格式数据模式变更 • 压缩 数据分区 • 分区概述 • Impala 及 Hive 里的数据分区 Apache Flume 实时数据采集 • 什么是 Apache Flume • Flume 基本体系结构 • Flume 源 • Flume 槽 • Flume 通道 • Flume 配置 Spark 基础 • 什么是 Apache Spark • 使用 Spark Shell • RDDs( 可恢复的分布式数据集) • Spark 里的函数式编程 Spark RDD • RDD • 键值对 RDD • MapReduce • 其他键值对 RDD 操作 编写和部署 Spark 应用 • Spark 应用对比 Spark Shell • 创建 SparkContext • 创建 Spark 应用(Scala 和 Java) • 运行 Spark 应用 • Spark 应用 WebUI • 配置 Spark 属性 • 运行日志 Spark 的并行处理 • 回顾:机群环境里的 Spark • RDD 分区 • 基于文件 RDD 的分区 • HDFS 和本地化数据 • 执行并行操作 • 执行阶段及任务 Spark 缓存和持久化 • RDD 演变 • 缓存 • 分布式持久化 Spark 数据处理的常见模式 • 常见 Spark 应用案例 • 迭代式算法 • 图处理及分析 • 机器学习 • 例子:K-Means 预览:Spark SQL • Spark SQL 和 SQL Context • 创建 DataFrames • 变更及查询 DataFrames • 保存 DataFrames • Spark SQL 对比 Impala
Cloudera Administrator Training for Apache Hadoop(CCA131) 课程介绍 Apache Hadoop 介绍: Hadoop 动机、基本概念、Hadoop 核心部件 Hadoop 机群安装: 机群管理方案、Cloudera Manager 特性、Cloudera manager 安装、Hadoop (CDH) 安装 Hadoop 分布式文件系统 (HDFS): HDFS 特性、读写文件、NameNode 内存考虑、HDFS 安全简介、HDFS Web UI、使用 HDFS Shell YARN 上的 MapReduce 和 Spark: 计算平台在 Hadoop 里扮演的角色、YARN:机群资源管理器、MapReduce 概念、Apache Spark 概念、Yarn 上的计算平台、YARN Web UI 及 Shell、YARN 应用运行日志 Hadoop 配置及服务运行日志: Cloudera Manager 配置管理机制、定位配置参数及进行配置变更、管理角色实例及添加服务、配置 HDFS 服务务、配置 Hadoop 服务运行日志、配置 YARN 服务 向 HDFS 导入数据: 使用 Flume 从外部数据源实时导入数据、使用 Sqoop 从关系数据库导入数据、REST 接口、导入数据的最佳实践 Hadoop 机群规划: 规划考虑因素、硬件选择、虚拟化选项、网络因素、节点配置 Hive,Impala 及 Pig 的安装及配置: Hive、Impala、Pig Hadoop 客户端及 Hue: 什么是 Hadoop 客户端、安装及配置 Hadoop 客户端、安装及配置 Hue、使用 Hue 进行身份验证及授权 机群高级配置: 高级配置参数、Hadoop 端口配置、HDFS 机柜感知配置、HDFS 高可靠性配置 Hadoop 安全: Hadoop 安全的重要性、Hadoop 安全性概念、Kerberos 简介、使用 Kerberos 保护 Hadoop 机群、其他安全特性 资源管理: 使用静态服务池配置 Linux cgroup、公平调度器、配置动态资源池、YARN 内存及 CPU 设置、Impala 查询调度 机群维护: 检查 HDFS 状态、机群间复制数据、添加/移除机群节点、机群数据负载平衡、目录快照、机群升级 机群监控及排错: Cloudera Manager 监控特性、监控 Hadoop 机群、Hadoop 机群排错、常见配置不当问题
|