Cloudera Hadoop培训：CDH集群搭建、spark开发、hive使用

IRENE · 发表于 2017-7-31 14:12:20

线上：长期开课，时间自行咨询

线下北京、上海、广州定期开课：

上海6月20-23日Cloudera Administrator Training for Apache Hadoop(CCA131)

上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175)

北京7月18-21日Cloudera Administrator Training for Apache Hadoop(CCA131)

上海7月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175)

上海8月15-18日Cloudera Training for Data Analyst(CCA159)

北京8月21-24日Cloudera Developer training for Spark and Hadoop(CCA-175)

上海8月28-31日Cloudera Administrator Training for Apache Hadoop(CCA131)

广州9月5-8日Cloudera Administrator Training for Apache Hadoop(CCA131)

广州9月11-14日Cloudera Developer training for Spark and Hadoop(CCA-175)

北京9月18-21日Cloudera Administrator Training for Apache Hadoop(CCA131)

上海9月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175)

每门课课时：28h/4天

咨询：Q1438118790

Cloudera Developer training for Spark and Hadoop(CCA-175)课程介绍

Hadoop 及生态系统介绍

• 传统大规模系统的问题

• Hadoop ！

• Hadoop 生态系统

Hadoop 体系结构及 HDFS

• 机群环境下的分布式处理

• 存储：HDFS 体系结构

• 存储：使用 HDFS

• 资源管理：YARN 体系结构

• 资源管理：使用 YARN

使用 Apache Sqoop 导入关系数据

• Sqoop 简介

• 数据的基本导入导出

• 减少传输的数据量

• 改善 Sqoop 性能

• Sqoop 2

Impala 及 Hive 介绍

• 简介

• 为什么使用 Impala 及 Hive

• Hive 和传统数据库的比较

• Hive 应用场景

使用 Impala 及 Hive 管理数据及建模

• 数据存储

• 创建数据库及表

• 表数据导入

• HCatalog

• Impala 元数据缓存

数据格式

• 选择文件格式

• 支持不同文件格式的工具

• Avro 数据格式定义模式

• 在 Hive 及 Sqoop 里使用 Avro

• Avro 格式数据模式变更

• 压缩数据分区

• 分区概述

• Impala 及 Hive 里的数据分区

Apache Flume 实时数据采集

• 什么是 Apache Flume

• Flume 基本体系结构

• Flume 源

• Flume 槽

• Flume 通道

• Flume 配置

Spark 基础

• 什么是 Apache Spark

• 使用 Spark Shell

• RDDs( 可恢复的分布式数据集）

• Spark 里的函数式编程 Spark RDD

• RDD

• 键值对 RDD

• MapReduce

• 其他键值对 RDD 操作

编写和部署 Spark 应用

• Spark 应用对比 Spark Shell

• 创建 SparkContext

• 创建 Spark 应用（Scala 和 Java）

• 运行 Spark 应用

• Spark 应用 WebUI

• 配置 Spark 属性

• 运行日志

Spark 的并行处理

• 回顾：机群环境里的 Spark

• RDD 分区

• 基于文件 RDD 的分区

• HDFS 和本地化数据

• 执行并行操作

• 执行阶段及任务

Spark 缓存和持久化

• RDD 演变

• 缓存

• 分布式持久化

Spark 数据处理的常见模式

• 常见 Spark 应用案例

• 迭代式算法

• 图处理及分析

• 机器学习

• 例子：K－Means 预览：Spark SQL

• Spark SQL 和 SQL Context

• 创建 DataFrames

• 变更及查询 DataFrames

• 保存 DataFrames

• Spark SQL 对比 Impala

Cloudera Administrator Training for Apache Hadoop(CCA131) 课程介绍

Apache Hadoop 介绍：

Hadoop 动机、基本概念、Hadoop 核心部件

Hadoop 机群安装：

机群管理方案、Cloudera Manager 特性、Cloudera manager 安装、Hadoop (CDH) 安装

Hadoop 分布式文件系统 (HDFS)：

HDFS 特性、读写文件、NameNode 内存考虑、HDFS 安全简介、HDFS Web UI、使用 HDFS Shell

YARN 上的 MapReduce 和 Spark：

计算平台在 Hadoop 里扮演的角色、YARN：机群资源管理器、MapReduce 概念、Apache Spark 概念、Yarn 上的计算平台、YARN Web UI 及 Shell、YARN 应用运行日志

Hadoop 配置及服务运行日志：

Cloudera Manager 配置管理机制、定位配置参数及进行配置变更、管理角色实例及添加服务、配置 HDFS 服务务、配置 Hadoop 服务运行日志、配置 YARN 服务

向 HDFS 导入数据：

使用 Flume 从外部数据源实时导入数据、使用 Sqoop 从关系数据库导入数据、REST 接口、导入数据的最佳实践

Hadoop 机群规划：

规划考虑因素、硬件选择、虚拟化选项、网络因素、节点配置

Hive，Impala 及 Pig 的安装及配置：

Hive、Impala、Pig

Hadoop 客户端及 Hue：

什么是 Hadoop 客户端、安装及配置 Hadoop 客户端、安装及配置 Hue、使用 Hue 进行身份验证及授权

机群高级配置：

高级配置参数、Hadoop 端口配置、HDFS 机柜感知配置、HDFS 高可靠性配置

Hadoop 安全：

Hadoop 安全的重要性、Hadoop 安全性概念、Kerberos 简介、使用 Kerberos 保护 Hadoop 机群、其他安全特性

资源管理：

使用静态服务池配置 Linux cgroup、公平调度器、配置动态资源池、YARN 内存及 CPU 设置、Impala 查询调度

机群维护：

检查 HDFS 状态、机群间复制数据、添加／移除机群节点、机群数据负载平衡、目录快照、机群升级

机群监控及排错：

Cloudera Manager 监控特性、监控 Hadoop 机群、Hadoop 机群排错、常见配置不当问题

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

Cloudera Hadoop培训：CDH集群搭建、spark开发、hive使用