分享

Mapper同一类数据如何送到同一个Reducer任务中

nettman 发表于 2014-3-15 22:22:09 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 13585
本帖最后由 nettman 于 2014-3-15 22:23 编辑

在mapreduce中,map划分key,value,然后我们把这些key与value发给reduce,这个是随机的。那么我们能否自定义把同一类型的数据发到reducer任务,答案是可以的。
那么如何实现:通过Partitioner类型。
我们可以带着下面问题来阅读回帖中内容。
1.HashPartitioner类的作用是什么?
2.getPartition(key,value,numReduceTasks)三个参数分别代表什么?numReduceTasks默认值是多少?
3.如何确定Reducer任务的个数?

加微信w3aboutyun,可拉入技术爱好者群

已有(2)人评论

跳转到指定楼层
nettman 发表于 2014-3-15 22:24:35
本帖最后由 nettman 于 2014-3-15 22:27 编辑

Mapper任务的输出会发送到Reducer任务。如果有多个Reducer任务在运行,那么我们希望所有Mapper任务中的不同分类的数据到不同的Reducer任务去处理。比如按照省份划分的话,需要把所有Mapper任务中同一性别的数据送到同一个Reducer任务中处理,这就要求Mapper任务在输出的时候指定哪些数据是相同分类的,承担这个任务的类就是Partitioner类。默认情况下,框架提供了一个HashPartitioner类用于完成这个任务,见图1-12所示。

1.png

图1-12
在图1-12中,HashPartitioner中的数据是来自Mapper任务输出的,getPartition()方法有三个形参,key、value分别指的是Mapper任务的输出key和value,numReduceTasks指的是设置的Reducer任务数量,默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition(…)方法的返回值总是0,即Mapper任务的所有输出数据都是到一个Reducer任务。

如果我们想要把Mapper输出的数据进行分类交给不同的Reducer处理,你们就需要继承框架提供的Paritioner类,覆盖其中的getPartition(...)方法。按照不同的分类标准,返回不同的分类索引值。这些索引值从0开始,1、2、3的顺序一直排列下去。

假设我们按照性别分区,那么可以覆盖Partitioner类的getpartition(…)方法,代码如图6-13所示。

2.png

图1-13
在图1-13中,我们分别使用0、1、2与numPartitions取模,得到的分类索引就是0、1、2。

三个不同的分类,意味着数据传输到三个不同的Reducer任务处理,意味着要设置3个Reducer任务。可以调用job对象的setNumPartitions(...)方法。
总体代码如图6-14所示。

3.png

图1-14

在图1-14中,我们使用了自定义的分区类,并且设置了numReduceTasks。这里的numReduceTasks在内部就把值赋给了分区类中形式参数numPartitions。

强调一下:Reducer任务数量一定不能小于分区数量。否则,一部分分区数据将会无法被处理,运行时会报错。



回复

使用道具 举报

maizhu 发表于 2014-10-8 12:49:49
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条