关于shuffle的一个疑问

说明：这不是我想实现什么目的而是从技术角度理解hadoop做了什么以wordcount为例， key为字符。假设有两个reduce。同时假设输入文件比较大，有多个spill文件。
问题：在一个map中，如果有多个spill file，在merge过程中 hadoop是怎么保证同一个reduce的数据在一起放着而且 key有序？

mituan2008 · 发表于 2015-9-14 18:24:43

通过分区函数保证的
比如：男和女分区

通过上面即可
让男的一个reduce
女的一个reduce.

至于是否有序，不一定保证，可以通过二次排序，让他们有顺序

Hadoop mapreduce自定义分区HashPartitioner

新手指导：MapReduce中的分区方法Partitioner

mituan2008 · 发表于 2015-9-14 18:25:37

类似帖子推荐：

关于mapreduce哈希分区
http://www.aboutyun.com/thread-14072-1-1.html

jancan · 发表于 2015-9-14 20:57:42

研究的挺深的，学习学习

图文精华

关于shuffle的一个疑问

已有(3)人评论

推荐 /2