|
楼主 |
发表于 2015-9-17 16:14:00
|
显示全部楼层
5、【Designing and Building Big Data Applications】(数据建模)
课时:4天
学习运用Apache Hadoop和企业数据枢纽中的关联工具来分析和解决实际问题,
你会遍历其设计和创建的整个过程,包括数据导入,决定恰当的文件格式来存储,
处理预存的数据,及用一个容易理解消化的形式向最终用户呈现结果。
这门4天的课程面向那些需要研发高度业务相关的应用的数据家。
【课程内容】
1、定义使用Data Sets,Metadata管理、Apache Avro、Avro Schemas演变
2、什么是the Kite SDK ,Fundamental Data Module基础概念Concepts,用Kite SDK创建新数据组
3、用Apache Sqoop输入关系数据,基本输入、限制结果、提升Sqoop性能、Sqoop 2
4、用Apache Flume捕获数据,Flume自定义组开发、使用Flume自定义拦截器写Avro对象
5、采用Apache Oozie管理工作流,定义Oozie工作流,验证、封包、部署,Oozie的Hue用户界面
6、用Apache Crunch处理数据管道,对比Crunch和Java mapreduce,应用Crunch projects,Crunch API的工具分级
7、使用Apache Hive里的表格,Basic Query Syntax,在Hive里采用RegexSerDe
8、开发用户定义功能,实现一个用户定义功能,用Impala执行互动式查询,数据和元数据管理
9、理解Cloudera Search,Search架构、支持的文件格式
10、用Cloudera Search创建索引,Collection and Schema Management,Morphlines
11、Solr Query Sybtax,采用Hue创建搜索UI,通过JDBC访问Impala,用Impala和Search增强定制的web应用
【学员基础】
该课程最适合需要使用Hadoop及其相关工具来解决现实问题的程序员、工程师和架构师。
学员应该预先参加过cloudera的Apache Hadoop程序员培训或有相当的实践经验。
需要良好的Java知识,熟悉Linux。SQL经验会有帮助。
【授课形式】
案例教学+上机实践
6、【Cloudera Introduction to Data Science】(数据科学家)
课时:3天
数据科学家创建信息平台来提出和回答以前不敢想象的问题。
学习数据学如何帮助公司降低成本,提升利润,改进产品,留住客户和发现新机会。
这门3天的课程姜帮助学员理解数据科学家做什么,他们解决什么问题,
在不同的行业里他们解决实际问题的方法。
【课程内容】
1、使用案例:金融、零售、广告业、电信和公用事业、医疗和药品
2、项目周期里的步伐、实验场景介绍
3、数据采集:数据源、采集技术
4、评估输入数据:数据格式、数据质量、数据数量
5、数据转型:匿名化、文件格式转换、联结数据组
6、数据分析和统计模式:统计与概率的关系、描述性统计、统计推断
7、机械学习基础:机械学习的3C、Naive Bayes分类器、数据和算法的重要性
8、推荐系统简介:什么是决策系统、协同过滤的类型、推荐系统的局限
9、Apache Mahout是什么(不是什么),可用性和安装、使用Mahout基于条目的推荐系统
10、用Apache Mahout实现推荐系统:二值、数值偏好的相似性度量,打分
11、实验和评估、产品部署及更多
【学员基础】
该课程适合有Apache Hadoop基本知识如HDFS、
MapReduce、Hadoop Streaming和Apache Hive的开发人员、数据分析师和统计师。
学员应熟练脚本语言:建议熟练Python,而Perl或ruby只需熟悉即可。
【授课形式】
案例教学+上机实践
|
|