CCA Spark and Hadoop Developer (CCA175) 开发者认证 认证准备建议:Spark andHadoop开发者培训 考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题 线上:长期开课 线下北京、上海定期开课(最近一次培训时间:北京6月22-25日Cloudera Developer training for Sparkand Hadoop(CCA-175) ,上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175)) 课时:28h/4天 咨询:Q1438118790 课程介绍 Hadoop及生态系统介绍 • 传统大规模系统的问题 • Hadoop ! • Hadoop 生态系统 Hadoop体系结构及 HDFS • 机群环境下的分布式处理 • 存储:HDFS 体系结构 • 存储:使用 HDFS • 资源管理:YARN 体系结构 • 资源管理:使用 YARN 使用Apache Sqoop 导入关系数据 • Sqoop 简介 • 数据的基本导入导出 • 减少传输的数据量 • 改善 Sqoop 性能 • Sqoop 2 Impala及 Hive 介绍 • 简介 • 为什么使用 Impala 及 Hive • Hive 和传统数据库的比较 • Hive 应用场景 使用Impala 及 Hive 管理数据及建模 • 数据存储 • 创建数据库及表 • 表数据导入 • HCatalog • Impala 元数据缓存 数据格式 • 选择文件格式 • 支持不同文件格式的工具 • Avro 数据格式定义模式 • 在 Hive 及 Sqoop 里使用 Avro • Avro 格式数据模式变更 • 压缩 数据分区 • 分区概述 • Impala 及 Hive 里的数据分区 ApacheFlume 实时数据采集 • 什么是 Apache Flume • Flume 基本体系结构 • Flume 源 • Flume 槽 • Flume 通道 • Flume 配置 Spark基础 • 什么是 Apache Spark • 使用 Spark Shell • RDDs( 可恢复的分布式数据集) • Spark 里的函数式编程 Spark RDD • RDD • 键值对 RDD • MapReduce • 其他键值对 RDD 操作 编写和部署 Spark 应用 • Spark 应用对比 Spark Shell • 创建 SparkContext • 创建 Spark 应用(Scala 和Java) • 运行 Spark 应用 • Spark 应用 WebUI • 配置 Spark 属性 • 运行日志 Spark的并行处理 • 回顾:机群环境里的 Spark • RDD 分区 • 基于文件 RDD 的分区 • HDFS 和本地化数据 • 执行并行操作 • 执行阶段及任务 Spark缓存和持久化 • RDD 演变 • 缓存 • 分布式持久化 Spark数据处理的常见模式 • 常见 Spark 应用案例 • 迭代式算法 • 图处理及分析 • 机器学习 • 例子:K-Means 预览:SparkSQL • Spark SQL 和 SQL Context • 创建 DataFrames • 变更及查询 DataFrames • 保存 DataFrames • Spark SQL 对比 Impala
|