搜索
收藏本版 |订阅

Hadoop 今日: 0|主题: 220|排名: 13 

作者 回复/查看 最后发表
国美在线hadoop面试题-值得一看
国美在线面试题 1、hdfs原理,以及各个模块的职责 2、mr的工作原理 3、map方法是如何调用reduce方法的 4、shell如何判断文件是否存在,如果不存在该如何处理? 5、fsimage和edit的区别? 6、had ...
bigdata 2014-6-11 23713 bigdata 2014-6-14 14:09
YARN工作流程
《Hadoop技术内幕:深入解析YARN架构设计与实现原理》第2章YARN设计理念与基本架构,在这一章中,我们将从设计理念和基本架构方面对Hadoop YARN进行介绍,这也属于准备工作的一部分。通过本章的 ...
bigdata 2014-6-9 03316 bigdata 2014-6-9 20:54
Facebook针对hbase的优化方案分析
使用hbase的目的是为了海量数据的随机读写,但是在实际使用中却发现针对随机读的优化和gc是一个很大的问题,而且hbase的数据是存储在Hdfs,而Hdfs是面向流失数据访问进行设计的,就难免 ...
bigdata 2014-5-27 02895 bigdata 2014-5-27 09:16
海量数据处理:十道面试题与十个海量数据处理方法总结
1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用 ...
bigdata 2014-5-26 02312 bigdata 2014-5-26 09:41
hive并行执行job
用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率,但不会减少其占用的资源。在hive中也有并行执行的选项。 set hive.exec.parallel=true; //打开任务并 ...
bigdata 2014-5-23 02638 bigdata 2014-5-23 17:58
海量数据处理:十道面试题与十个海量数据处理方法总结
1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的 ...
bigdata 2014-5-22 02644 bigdata 2014-5-22 15:07
hadoop配置文件详解、安装及相关操作
一、Hadoop伪分布配置 1. 在conf/hadoop-env.sh文件中增加:export JAVA_HOME=/home/Java/jdk1.62. 在conf/core-site.xml文件中增加如下内容: fs.default.name hdfs://local ...
大数据 2014-4-19 12709 bigdata 2014-5-22 12:33
如何确定 Hadoop map和reduce的个数
阅读本文可以带着下面问题: 1.map和reduce的数量过多会导致什么情况? 2.Reduce可以通过什么设置来增加任务个数? 3.一个task的map数量由谁来决定? 4.一个task的reduce数量由谁来决定? 一 ...
bigdata 2014-5-21 02901 bigdata 2014-5-21 17:58
Hive优化之数据倾
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值 ...
bigdata 2014-5-21 02525 bigdata 2014-5-21 15:00
MapReduce TopK统计加排序 新人帖
Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。 这个案例分两个步骤, ...
潇洒子弦 2014-5-21 07879 潇洒子弦 2014-5-21 13:25
MapReduce原理浅析
一个简单的应用了Map/Reduce模式的例子:http://wiki.apache.org/hadoop/WordCount 用 Mapeduce 来处理大数据集的过程, 这个 MapReduce 的计算过程简而言之,就是将大数据集分解为成百上千的 ...
林伯海 2014-5-20 02245 林伯海 2014-5-20 17:43
MapReduce Join联结实现
一、背景 早在8月份的时候,我就做了一些MR的Join查询,但是发现回北京之后,2个月不用,居然有点生疏,所以今天早上又花时间好好看了一下,顺便写下这个文档,以供以后查阅。 二、环境 JDK 1.6 ...
admin_bigdatas 2014-5-20 03486 admin_bigdatas 2014-5-20 17:42
MapReduce: Job提交过程
初学Hadoop,准备用几篇日志来陈述MapReduce job的生命周期中job提交、task分发和task执行,以及JT scheduling策略,job性能参考等方面的知识。通过代码及参考资料想了解job执行的大致细节,期 ...
IT市场 2014-5-20 02490 IT市场 2014-5-20 17:40
MapReduce:job在Job Tracker上的初始化
这篇来说道说道job在到达Job Tracker后会有哪些动作,涉及上篇job生命周期的第五步和第六步。因为job在初始化后紧接着需要应付Job Tracker对Task Tracker的task分发响应,所以我们从Job Tracker ...
小雨涵 2014-5-20 02582 小雨涵 2014-5-20 17:39
MapReduce: JT默认task scheduling策略
如果没有自己定制的调度策略,MapReduce就采用自带的JobQueue策略分发task。这种基于FIFO的策略挺简单,能满足基本的业务需求,但缺点也很明显,如不能实现job的实时性、所有TT的执行能力对用户 ...
herosrx 2014-5-20 02622 herosrx 2014-5-20 17:38
Hadoop 2_0 NameNode HA和Federation实践
一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点 ...
herosrx 2014-5-20 02475 herosrx 2014-5-20 15:54
HRegionServer没有启动的原因
几天没有启动hbase,今天重新启动,却发现 HRegionServer没有启动, 到 region server 查看 jps,里面只有HQuorumPeer,没有 HRegionServer。 于是就单独启动: Java代码 [*]Exception in ...
bigdata 2014-5-20 09057 bigdata 2014-5-20 11:20
Hadoop添加节点的方法
自己实际添加节点过程: 1. 先在slave上配置好环境,包括ssh,jdk,相关config,lib,bin等的拷贝; 2. 将新的datanode的host加到集群namenode及其他datanode中去; 3. 将新的datanode的ip加到m ...
编辑小王 2014-2-26 12783 bigdata 2014-5-20 11:13
SSH双向免密码登陆linux配置双机SSH信任
一、实现原理使用一种被称为"公私钥"认证的方式来进行ssh登录。"公私钥"认证方式简单的解释是:首先在客户端上创建一对公私钥(公钥文件:~/.ssh/id_rsa.pub;私钥文件:~/.ssh/id_rsa),然后 ...
bigdata 2014-5-20 02350 bigdata 2014-5-20 11:12
Hadoop DataNode OOM故障及解决方案
问题导读: 1.出现oom的原因是什么? 2.解决OOM的思路是什么? 一、故障症状 跑大任务时,datanode日志报DataXceiveServer: Exiting due to:java.lang.OutOfMemoryError: unable to create ...
admin_bigdatas 2014-5-19 03047 admin_bigdatas 2014-5-19 00:47
下一页 »

快速发帖

还可输入 200 个字符
您需要登录后才可以发帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-15 14:40 , Processed in 0.056712 second(s), 12 queries .

返回顶部 返回版块