请教一个问题,关于mapreduce的shuffle过程

查看数: 17317 | 评论数: 6 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2015-1-29 17:33

正文摘要:

找了一些资料,说mapreduce的collect的时候就是为每个key/value键值对生成对应的分区号,并保存下来。 我的疑问是,假设有这么中情况,一个map中包含两个不同的分区号的键值对,分别对应两个reducer, reducer是拉 ...

回复

蒲公英的梦想 发表于 2015-3-30 00:46:43
拉去对应分区的内容,在map正在运行的时候reduce已经开始运行(reduce在map运行之后多长时间运行可以在mapred-site.xml进行配置)。可参考此片文章:http://blog.163.com/songyalong11 ... 1897201410710401077
gwgyk 发表于 2015-3-12 11:20:23
应该是拉取对应分区的键值对记录,否则的话,partition又有什么意义呢?
desehawk 发表于 2015-1-30 09:32:27
pengsuyun 发表于 2015-1-30 08:31
版主看看这张图,我想是可以说明些问题。

赞同,map输出之后,会被不同的reduce拉取
continue 发表于 2015-1-29 21:36:54
我觉得reduce是要在map完成后再去拉取数据。而且在拉取的时候,是拉取的整个map数据,map输出的数据格式是 <key,{value1,value2...}>,在聚合生成分区号之前以及之后都有一次排序。这仅仅是我的个人观点
desehawk 发表于 2015-1-29 18:19:47
map处理完毕之后,就输出了,个人认为是拉取自己关心的内容。不相关的不会去拉取
关闭

推荐上一条 /2 下一条