图文精华

hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...

About云-梭伦科技»专题 › 交流区 › 技术交流 › MapReduce › 请教一个问题，关于mapreduce的shuffle过程

0
6
0

分享

请教一个问题，关于mapreduce的shuffle过程

pengsuyun 发表于 2015-1-29 17:33:02 [显示全部楼层] 只看大图回帖奖励

回帖奖励

阅读模式关闭右栏 6 17315

找了一些资料，说mapreduce的collect的时候就是为每个key/value键值对生成对应的分区号，并保存下来。
我的疑问是，假设有这么中情况，一个map中包含两个不同的分区号的键值对，分别对应两个reducer，
reducer是拉取map整个生成的文件呢？还是只拉取对应分区的键值对记录？
如图。

拉取对应分区的记录.jpg

拉取整个文件.jpg

回复

使用道具举报

自定义广告语

已有(6)人评论

电梯直达

跳转到指定楼层

正序浏览

pengsuyun 发表于 2015-1-30 08:31:55

desehawk 发表于 2015-1-29 18:19
map处理完毕之后，就输出了，个人认为是拉取自己关心的内容。不相关的不会去拉取

版主看看这张图，我想是可以说明些问题。

这张图应该可以说明只拉取自己关系的数据.jpg

回复

使用道具举报

desehawk 发表于 2015-1-29 18:19:47

map处理完毕之后，就输出了，个人认为是拉取自己关心的内容。不相关的不会去拉取

回复

使用道具举报

continue 发表于 2015-1-29 21:36:54

我觉得reduce是要在map完成后再去拉取数据。而且在拉取的时候，是拉取的整个map数据，map输出的数据格式是 <key,{value1,value2...}>，在聚合生成分区号之前以及之后都有一次排序。这仅仅是我的个人观点

回复

使用道具举报

desehawk 发表于 2015-1-30 09:32:27

pengsuyun 发表于 2015-1-30 08:31
版主看看这张图，我想是可以说明些问题。

赞同，map输出之后，会被不同的reduce拉取

回复

使用道具举报

gwgyk 发表于 2015-3-12 11:20:23

应该是拉取对应分区的键值对记录，否则的话，partition又有什么意义呢？

回复

使用道具举报

蒲公英的梦想 发表于 2015-3-30 00:46:43

拉去对应分区的内容，在map正在运行的时候reduce已经开始运行（reduce在map运行之后多长时间运行可以在mapred-site.xml进行配置）。可参考此片文章：http://blog.163.com/songyalong11 ... 1897201410710401077

回复

使用道具举报

发表新帖

pengsuyun

高级会员

关注

39

主题
246

帖子
8

粉丝

TA的主题

24小时热文

推荐 /2

关于我们· 联系我们· 加入我们· 小黑屋· 合作伙伴

Copyright © 2001-2025 About云-梭伦科技 Powered by Discuz! X3.4 Licensed Discuz Team.

简书 / 京ICP备2020039040号简书网举报电话：021-34700000

意见
反馈