ClouderaData Analyst Training: Using Pig, Hive, and Impala(数据分析师课程) 建议学员:数据分析师和业务分析师 课时:3天 Cloudera的3天数据分析师培训课程专注于 Apache Pig, Hive 和 Cloudera Impala, 教授你将传统数据分析方法和商业智能的技巧运用到大数据里。Cloudera 展示了数据专家结合SQL和熟悉的脚本语言,用来访问,操纵和分析复杂数据组的工具。 提升你生态圈的经验:ApacheHive 支持分析师,数据库管理员和其他没有Java编程经验的人访问多种结构的数据。 Apache Pig 对Hadoop集群应用了熟悉的基础的脚本语言。 Cloudera Impala 支持对存放在Hadoop里的数据通过原生SQL进行实时互动式分析。 【课程内容:】 1、Hadoop生态圈、实验场景介绍、用Hadoop工具导入数据; 2、pig的特性、使用案例、和pig交互、pig Latin语法、Field定义、用pig执行ETL流程; 3、pig处理复杂数据,复杂/nested嵌套的数据类型、用pig分析广告战役的数据
4、pig的多数据组操作,pig链接多数据组、用pig分析离散的数据组; 5、用流处理和UDFs扩展pig,Macros和Imports、contributed functions,用其他语言和pig一起处理数据; 6、pig故障排查和优化,用web界面排查一个故障的任务、Data采样和故障排查、理解执行计划、提高pig任务性能; 7、hive表结构和数据储存、对比hive和传统数据库、hive vs.pig、hive使用案例; 8、hive的关系数据分析、数据管理、文本处理、优化及扩展,在shell、脚本和hue上运行hive查询; 9、impala和hive、pig、关系数据库的不同、使用impala shell; 10、采样impala分析数据,过滤、排序and limiting results,提升impala性能,impala的交互式分析; 11、对比map reduce、pig、hive、impala和关系数据库; Cloudera官方授权认证培训机构:北京精准数源信息技术有限公司 (原厂讲师、原厂课程、同步轨迹最新的课程体系、全球最具权威的大数据国际认证) 【学员基础:】该课程适合有SQL经验和基本Unix和Linux命令的数据分析师、业务分析师和管理员。无需Java和Apache Hadoop经验
|