分享

关于shuffle的使用问题

yyk1017 发表于 2014-11-29 10:31:33 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 8435
每次看官方图都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。

已有(3)人评论

跳转到指定楼层
bioger_hit 发表于 2014-11-29 11:49:26
一时半会搞不懂属正常现象,这里帮助楼主理解。
首先我们不说Shuffle。
我们就说
找工作

相信你对找工作这个是很容易理解的。
找工作需要干什么?
制作简历
投简历
去面试
面试成功。
这是一个过程,因为自己亲身经历了,所以这个是很好理解的。
那么Shuffle是一个,Shuffle如同找工作,这两个都不是一个名词,而是描述了一个复杂的事情,而且里面包含了很多的过程。所以很难理解。

那么Shuffle在mapreduce做了什么事情?
Shuffle描述了数据从map task输出到reduce task输入的这段过程
那么这个过程都包含了什么?
首先这个过程的主角一个map,一个reduce。
如果找个工作,你、面试官是主角,剩下的就是对事情的考量及优化。你优化的是什么?如何更快更好的找到工作。


map干了什么事情?

每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并,生成最终的正式输出文件,然后等待reduce task来拉数据。
map干的事情是什么?这就是Shuffle的一个环节。

同时map为了提高效率, sort与combiner,这个是什么?这个是为了提高整个mapreduce的效率。

如同你为了找到工作,你需要干什么?简历做的好点,面试多找找面试题,你是在优化自己的面试技巧,是为了找到工作

那么map的 sort与combiner  是为了完成什么事情?是为了更好的处理大数据

所以相信从上面你已经明白Shuffle是什么了,
更多内容参考
彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题




回复

使用道具 举报

songyl525 发表于 2014-12-28 20:56:41
其实就是这句话
Shuffle描述了数据从map task输出到reduce task输入的这段过程
回复

使用道具 举报

lukeguan 发表于 2015-1-7 10:47:12
入门有点乱,都找不到方向
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条