mapreduce学习指导及疑难解惑汇总

1.思想起源：

我们在学习mapreduce，首先我们从思想上来认识。其实任何的奇思妙想，抽象的，好的想法、都来源于我们生活，而我们也更容易理解我们身边所发生事情。所以下面一篇便是从生活的角度，来让我们理解，什么是mapreduce。
Hadoop简介(1):什么是Map/Reduce

2.设计思路

我们从思想上认识了mapreduce，那么mapreduce具体是什么，我们需要看得见，摸得着。我们该如何实现这个思想，我们该如何设计mapreduce。那么现在来说说它的设计思路。

设计思路如何表示:ok下面的帖子，是通过一张图来表达的。
Mapreduce 整个工作机制图

mapreduce是hadoop的核心，正因为mapreduce，所以才产生了分布式。所以我们可能通过一张图，了解的不够清楚和详细。我们还需要了解里面的原理：
MapReduce工作原理讲解

3.模型实现

通过上面我们可能有了自己的一些看法。但是我们可能还是认识不太清楚。那么咱们在来看看编程模型，来进一步的了解。

MapReduce 编程模型概述

mapreduce编程模型

4.产生问题

我们看了上面的文章，这时候会有一些名词、概念进入我们的脑海。
除了map，reduce，task,job，shuffe，partition，combiner这些把我们给弄糊涂了。
我们产生问题如下：
map的个数由谁来决定，如何计算？
reduce个数由谁来决定，如何计算？
简单来讲map由split来决定，reduce则是由partition来决定。
详细可以查看
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么？

---------------------------------------------------------------------------------------------------
shuffle是什么？
partition是什么？
combiner是什麽？
他们三者之间的关系是什么？

mapreduce是hadoop核心，而shuffle是mapreduce的核心，shuffle个人认为它是一个动态的过程，包含了Combiner，merge等的过程，那么这里因为讲到shuffle，很多人都讲的全面，Combiner，merge，sort几乎全都讲了，这样讲是没有错误的，但是容易给初学者造成一个假象，那就是这些过程必须都是包含的，其实这些是根据个人的需求来确定的。
彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题

对于Combiner的疑惑可以查看
Mapper过程中Combiner的作用
解决了下面问题

为什么需要在Mapper端进行归约处理？

为什么可以在Mapper端进行归约处理？

既然在Mapper端可以进行归约处理，为什么在Reducer端还要处理？

上面三个问题，可以查看帖子

hadoop中，combine、partition、shuffle作用分别是什么？

同样关于上面的问题可以参考
关于Mapper、Reducer的个人总结