Hadoop 今日: 0|主题: 220|排名: 12

新窗全部主题最新热门热帖精华更多 \| 显示置顶		作者	回复/查看	最后发表


国美在线hadoop面试题-值得一看国美在线面试题 1、hdfs原理，以及各个模块的职责 2、mr的工作原理 3、map方法是如何调用reduce方法的 4、shell如何判断文件是否存在，如果不存在该如何处理？ 5、fsimage和edit的区别？ 6、had ...	bigdata 2014-6-11	23819	bigdata 2014-6-14 14:09
YARN工作流程《Hadoop技术内幕：深入解析YARN架构设计与实现原理》第2章YARN设计理念与基本架构，在这一章中，我们将从设计理念和基本架构方面对Hadoop YARN进行介绍，这也属于准备工作的一部分。通过本章的 ...	bigdata 2014-6-9	03419	bigdata 2014-6-9 20:54
Facebook针对hbase的优化方案分析使用hbase的目的是为了海量数据的随机读写，但是在实际使用中却发现针对随机读的优化和gc是一个很大的问题，而且hbase的数据是存储在Hdfs，而Hdfs是面向流失数据访问进行设计的，就难免 ...	bigdata 2014-5-27	02958	bigdata 2014-5-27 09:16
海量数据处理：十道面试题与十个海量数据处理方法总结 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用 ...	bigdata 2014-5-26	02385	bigdata 2014-5-26 09:41
hive并行执行job 用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率，但不会减少其占用的资源。在hive中也有并行执行的选项。 set hive.exec.parallel=true; //打开任务并 ...	bigdata 2014-5-23	02708	bigdata 2014-5-23 17:58
海量数据处理：十道面试题与十个海量数据处理方法总结 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的 ...	bigdata 2014-5-22	02720	bigdata 2014-5-22 15:07
hadoop配置文件详解、安装及相关操作一、Hadoop伪分布配置 1. 在conf/hadoop-env.sh文件中增加：export JAVA_HOME=/home/Java/jdk1.62. 在conf/core-site.xml文件中增加如下内容： fs.default.name hdfs://local ...	大数据 2014-4-19	12858	bigdata 2014-5-22 12:33
如何确定 Hadoop map和reduce的个数阅读本文可以带着下面问题： 1.map和reduce的数量过多会导致什么情况？ 2.Reduce可以通过什么设置来增加任务个数？ 3.一个task的map数量由谁来决定？ 4.一个task的reduce数量由谁来决定？一 ...	bigdata 2014-5-21	02970	bigdata 2014-5-21 17:58
Hive优化之数据倾在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值 ...	bigdata 2014-5-21	02582	bigdata 2014-5-21 15:00
MapReduce TopK统计加排序 Hadoop技术内幕中指出Top K算法有两步，一是统计词频，二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例，这些案例都只有排序功能，所以自己写了个案例。这个案例分两个步骤， ...	潇洒子弦 2014-5-21	07993	潇洒子弦 2014-5-21 13:25
MapReduce原理浅析一个简单的应用了Map/Reduce模式的例子：http://wiki.apache.org/hadoop/WordCount 用 Mapeduce 来处理大数据集的过程, 这个 MapReduce 的计算过程简而言之，就是将大数据集分解为成百上千的 ...	林伯海 2014-5-20	02309	林伯海 2014-5-20 17:43
MapReduce Join联结实现一、背景早在8月份的时候，我就做了一些MR的Join查询，但是发现回北京之后，2个月不用，居然有点生疏，所以今天早上又花时间好好看了一下，顺便写下这个文档，以供以后查阅。二、环境 JDK 1.6 ...	admin_bigdatas 2014-5-20	03617	admin_bigdatas 2014-5-20 17:42
MapReduce: Job提交过程初学Hadoop，准备用几篇日志来陈述MapReduce job的生命周期中job提交、task分发和task执行，以及JT scheduling策略，job性能参考等方面的知识。通过代码及参考资料想了解job执行的大致细节，期 ...	IT市场 2014-5-20	02558	IT市场 2014-5-20 17:40
MapReduce:job在Job Tracker上的初始化这篇来说道说道job在到达Job Tracker后会有哪些动作，涉及上篇job生命周期的第五步和第六步。因为job在初始化后紧接着需要应付Job Tracker对Task Tracker的task分发响应，所以我们从Job Tracker ...	小雨涵 2014-5-20	02664	小雨涵 2014-5-20 17:39
MapReduce: JT默认task scheduling策略如果没有自己定制的调度策略，MapReduce就采用自带的JobQueue策略分发task。这种基于FIFO的策略挺简单，能满足基本的业务需求，但缺点也很明显，如不能实现job的实时性、所有TT的执行能力对用户 ...	herosrx 2014-5-20	02703	herosrx 2014-5-20 17:38
Hadoop 2_0 NameNode HA和Federation实践一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案，由于行业的特殊性，客户对服务的可用性有着非常高的要求，而HDFS长久以来都被单点 ...	herosrx 2014-5-20	02535	herosrx 2014-5-20 15:54
HRegionServer没有启动的原因几天没有启动hbase，今天重新启动，却发现 HRegionServer没有启动，到 region server 查看 jps，里面只有HQuorumPeer，没有 HRegionServer。于是就单独启动: Java代码 [*]Exception in ...	bigdata 2014-5-20	09154	bigdata 2014-5-20 11:20
Hadoop添加节点的方法自己实际添加节点过程： 1. 先在slave上配置好环境，包括ssh，jdk，相关config，lib，bin等的拷贝； 2. 将新的datanode的host加到集群namenode及其他datanode中去； 3. 将新的datanode的ip加到m ...	编辑小王 2014-2-26	12893	bigdata 2014-5-20 11:13
SSH双向免密码登陆linux配置双机SSH信任一、实现原理使用一种被称为"公私钥"认证的方式来进行ssh登录。"公私钥"认证方式简单的解释是：首先在客户端上创建一对公私钥（公钥文件：~/.ssh/id_rsa.pub；私钥文件：~/.ssh/id_rsa），然后 ...	bigdata 2014-5-20	02417	bigdata 2014-5-20 11:12
Hadoop DataNode OOM故障及解决方案问题导读： 1.出现oom的原因是什么？ 2.解决OOM的思路是什么？一、故障症状跑大任务时，datanode日志报DataXceiveServer: Exiting due to:java.lang.OutOfMemoryError: unable to create ...	admin_bigdatas 2014-5-19	03137	admin_bigdatas 2014-5-19 00:47

1 ... 2 3 4 5 6 7 8910 11 / 11 页下一页

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

Hadoop 今日: 0|主题: 220|排名: 12

快速发帖