搜索
查看: 6223|: 0

Hadoop入门_Hadoop入门课程有哪些

[复制链接]

24

主题

0

回帖

159

积分

注册会员

积分
159
发表于 2016-11-9 15:19:53 | 显示全部楼层 |阅读模式
  随着大数据的发展,Hadoop的名声也越来越大了,Hadoop作为一个大数据处理的软件框架,一直以可靠,高效,可伸缩的方式处理着诸多的数据。Hadoop是可靠的,它会假设存储失败,因此维护多个数据的副本,确保失败后重新处理。Hadoop是高效的,并行的方式工作,加快了处理的速度。Hadoop也是可伸缩的,能够处理PB级别的数据。Hadoop最大的优势是成本低,任何人都可以使用。

  Hadoop的组成

  1,HadoopCommon:Hadoop体系最底层的一个模块,为子项目提供各种工具,

  2,HDFS:分布式文件系统,吞吐量高,可创建,删除,移动和重命名文件等,

  3,MapReduce:分布式海量数据处理的软件框架集计算集群。

  4.Avro:dougcutting主持的RPC项目,主要负责数据的序列化。有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。

  5、Hive:类似CloudBase,也是基于hadoop分布式计算平台上的提供datawarehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。

  6、HBase:基于HadoopDistributedFileSystem,是一个开源的,基于列存储模型的可扩展的分布式数据库,支持大型表的存储结构化数据。

  7、Pig:是一个并行计算的高级的数据流语言和执行框架,SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。

  8、ZooKeeper:Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

  9、Chukwa:一个管理大型分布式系统的数据采集系统由yahoo贡献。

  10、Cassandra:无单点故障的可扩展的多主数据库

  11、Mahout:一个可扩展的机器学习和数据挖掘

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-12-22 20:15 , Processed in 0.074389 second(s), 25 queries .

快速回复 返回顶部 返回列表