Hadoop练习题——BIhadoop思数云服务中心

北京思数云天 · 发表于 2014-3-11 15:30:15

Hadoop 大数据练习题（1）

——Bihadoop思数云服务中心

此试题来自思数云服务中心某省级移动企业内训，第一阶段，用于检测学习效果和掌握学员技术背景，试题将陆续更新。

姓名： 分数：

单项选择题

此试题来自思数云服务中心某省级移动企业内训，第一阶段，用于检测学习效果和掌握学员技术背景。

1. 下面哪个程序负责HDFS数据存储。

a) NameNode

b) Jobtracker

c) Datanode √

d) secondaryNameNode

e) tasktracker

2. HDfS中的block默认保存几份？

a) 3份√

b) 2份

c) 1份

d) 不确定

3. 下列哪个程序通常与NameNode在一个节点启动？

a) SecondaryNameNode

b) DataNode

c) TaskTracker

d) Jobtracker√

4. Hadoop作者

a) Martin Fowler

b) Kent Beck

c) Doug cutting√

5. HDFS默认Block Size

a) 32MB

b) 64MB√

c) 128MB

6. 下列哪项通常是集群的最主要的性能瓶颈

a) CPU

b) 网络

c) 磁盘√

d) 内存

7. 关于SecondaryNameNode哪项是正确的？

a) 它是NameNode的热备

b) 它对内存没有要求

c) 它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√

d) SecondaryNameNode应与NameNode部署到一个节点

8. 一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？

a) 1

b) 2√

c) 3

d) 4

9. HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？

a) 64MB

b) 75MB√

c) 一个map读取64MB，另外一个map读取11MB

10. HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？

a) 64MB

b) 75MB

c) 一个map读取64MB，另外一个map读取11MB√

北京思数云天 · 发表于 2014-3-11 15:40:27

多选题：

11. 下列哪项可以作为集群的管理工具
a) Puppet√
b) Pdsh√
c) Cloudera Manager√
d) Rsync + ssh + scp√

12. 配置机架感知的下面哪项正确
a) 如果一个机架出问题，不会影响数据读写√
b) 写入数据的时候会写到不同机架的DataNode中√
c) MapReduce会根据机架获取离自己比较近的网络数据√

13. Client端上传文件的时候下列哪项正确
a) 数据经过NameNode传递给DataNode
b) Client端将文件以Block为单位，管道方式依次传到DataNode√
c) Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作
d) 当某个DataNode失败，客户端会继续传给其它DataNode √

14. 下列哪个是Hadoop运行的模式
a) 单机版√
b) 伪分布式√
c) 分布式√

15. Cloudera提供哪几种安装CDH的方法
a) Cloudera manager√
b) Tar ball√
c) Yum√
d) Rpm√

判断题：（全部错）
16. Ganglia不仅可以进行监控，也可以进行告警。（  ）
17. Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（  ）
18. 如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（  ）
19. Cloudera CDH是需要付费使用的。（  ）
20. Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（  ）
21. Hadoop支持数据的随机写。（  ）
22. NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。（  ）
23. NameNode本地磁盘保存了Block的位置信息。（  ）
24. Slave节点要存储数据，所以它的磁盘越大越好。（  ）
25. Hadoop默认调度器策略为FIFO，并支持多个Pool提交Job。（  ）
26. 集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（  ）
27. 因为HDFS有多个副本，所以NameNode是不存在单点问题的。（  ）
28. 每个map槽就是一个线程。（  ）
29. Mapreduce的input split就是一个block。（  ）
30. Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200MB。（  ）
31. DataNode首次加入cluster的时候，如果log中报告不兼容文件版本，那需要NameNode执行“hadoop namenode -format”操作格式化磁盘。（  ）
32. Hadoop1.0和2.0都具备完善的HDFS HA策略。（）
33. GZIP压缩算法比LZO更快。（）
34. PIG是脚本语言，它与mapreduce无关。（）

此套试题来自北京思数科技有限公司 BIhadoop思数云服务中心
交流QQ群：223918930 验证信息：bihadoop
QQ：1527954089
网站 http：//www.bihadoop.com
电话：13381330320

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

Hadoop练习题——BIhadoop思数云服务中心