搜索
查看: 1799|: 0

Cloudera Hadoop培训:CDH集群搭建、spark开发、hive使用

[复制链接]

31

主题

9

回帖

111

积分

注册会员

积分
111
发表于 2017-7-31 14:12:20 | 显示全部楼层 |阅读模式
线上:长期开课时间自行咨询
线下北京、上海广州定期开课
上海6月20-23日Cloudera Administrator Training for Apache Hadoop(CCA131)  
上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175)
北京7月18-21日Cloudera Administrator Training for Apache Hadoop(CCA131)  
上海7月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175)
上海8月15-18日Cloudera Training for Data Analyst(CCA159)
北京8月21-24日Cloudera Developer training for Spark and Hadoop(CCA-175)
上海8月28-31日Cloudera Administrator Training for Apache Hadoop(CCA131)  
广州9月5-8日Cloudera Administrator Training for Apache Hadoop(CCA131)  
广州9月11-14日Cloudera Developer training for Spark and Hadoop(CCA-175)
北京9月18-21日Cloudera Administrator Training for Apache Hadoop(CCA131)  
上海9月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175)
每门课课时:28h/4天
咨询:Q1438118790
Cloudera Developer training for Spark and Hadoop(CCA-175)课程介绍
Hadoop 及生态系统介绍    
•  传统大规模系统的问题   
•  Hadoop !   
•  Hadoop 生态系统
Hadoop 体系结构及 HDFS   
•  机群环境下的分布式处理   
•  存储:HDFS 体系结构   
•  存储:使用 HDFS   
•  资源管理:YARN 体系结构   
•  资源管理:使用 YARN
使用 Apache Sqoop 导入关系数据   
•  Sqoop 简介   
•  数据的基本导入导出   
•  减少传输的数据量   
•  改善 Sqoop 性能   
•  Sqoop 2
Impala 及 Hive 介绍   
•  简介   
•  为什么使用 Impala 及 Hive   
•  Hive 和传统数据库的比较   
•  Hive 应用场景
使用 Impala 及 Hive 管理数据及建模   
•  数据存储   
•  创建数据库及表   
•  表数据导入   
•  HCatalog   
•  Impala 元数据缓存
数据格式   
•  选择文件格式   
• 支持不同文件格式的工具   
• Avro 数据格式定义模式   
• 在 Hive 及 Sqoop 里使用 Avro   
• Avro 格式数据模式变更   
• 压缩 数据分区   
• 分区概述   
• Impala 及 Hive 里的数据分区
Apache Flume 实时数据采集   
•  什么是 Apache Flume   
•  Flume 基本体系结构   
•  Flume 源   
•  Flume 槽   
•   Flume 通道   
•  Flume 配置
Spark 基础   
•  什么是 Apache Spark   
•  使用 Spark Shell   
•  RDDs( 可恢复的分布式数据集)   
•  Spark 里的函数式编程 Spark RDD   
•  RDD   
•  键值对 RDD   
•  MapReduce   
•  其他键值对 RDD 操作
编写和部署 Spark 应用   
•  Spark 应用对比 Spark Shell   
•  创建 SparkContext   
•  创建 Spark 应用(Scala 和 Java)   
•  运行 Spark 应用   
•  Spark 应用 WebUI   
•  配置 Spark 属性   
•  运行日志
Spark 的并行处理   
•  回顾:机群环境里的 Spark   
•  RDD 分区   
•  基于文件 RDD 的分区   
•  HDFS 和本地化数据   
•  执行并行操作   
•  执行阶段及任务
Spark 缓存和持久化   
•  RDD 演变   
•  缓存   
•  分布式持久化
Spark 数据处理的常见模式   
•  常见 Spark 应用案例   
•  迭代式算法   
•  图处理及分析   
•  机器学习   
•  例子:K-Means 预览:Spark SQL   
•  Spark SQL 和 SQL Context   
•  创建 DataFrames   
•  变更及查询 DataFrames   
•  保存 DataFrames   
•  Spark SQL 对比 Impala

Cloudera Administrator Training for Apache Hadoop(CCA131)  课程介绍
Apache Hadoop 介绍:
Hadoop 动机、基本概念、Hadoop 核心部件
Hadoop 机群安装:   
机群管理方案、Cloudera Manager 特性、Cloudera manager 安装、Hadoop (CDH) 安装
Hadoop 分布式文件系统 (HDFS):   
HDFS 特性、读写文件、NameNode 内存考虑、HDFS 安全简介、HDFS Web UI、使用 HDFS Shell
YARN 上的 MapReduce 和 Spark:   
计算平台在 Hadoop 里扮演的角色、YARN:机群资源管理器、MapReduce 概念、Apache Spark 概念、Yarn 上的计算平台、YARN Web UI 及 Shell、YARN 应用运行日志
Hadoop 配置及服务运行日志:   
Cloudera Manager 配置管理机制、定位配置参数及进行配置变更、管理角色实例及添加服务、配置 HDFS 服务务、配置 Hadoop 服务运行日志、配置 YARN 服务
HDFS 导入数据:   
使用 Flume 从外部数据源实时导入数据、使用 Sqoop 从关系数据库导入数据、REST 接口、导入数据的最佳实践
Hadoop 机群规划:   
规划考虑因素、硬件选择、虚拟化选项、网络因素、节点配置
Hive,Impala 及 Pig 的安装及配置:   
Hive、Impala、Pig
Hadoop 客户端及 Hue:   
什么是 Hadoop 客户端、安装及配置 Hadoop 客户端、安装及配置 Hue、使用 Hue 进行身份验证及授权
机群高级配置:   
高级配置参数、Hadoop 端口配置、HDFS 机柜感知配置、HDFS 高可靠性配置
Hadoop 安全:   
Hadoop 安全的重要性、Hadoop 安全性概念、Kerberos 简介、使用 Kerberos 保护 Hadoop 机群、其他安全特性
资源管理:   
使用静态服务池配置 Linux cgroup、公平调度器、配置动态资源池、YARN 内存及 CPU 设置、Impala 查询调度
机群维护:   
检查 HDFS 状态、机群间复制数据、添加/移除机群节点、机群数据负载平衡、目录快照、机群升级
机群监控及排错:   
Cloudera Manager 监控特性、监控 Hadoop 机群、Hadoop 机群排错、常见配置不当问题

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-12-22 16:24 , Processed in 0.153134 second(s), 24 queries .

快速回复 返回顶部 返回列表