搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
MapReduce
›
关于shuffle的一个疑问
0
3
1
分享
关于shuffle的一个疑问
zcfightings
发表于 2015-9-14 18:16:29
[显示全部楼层]
只看大图
阅读模式
关闭右栏
3
9030
说明:这不是我想实现什么目的 而是从技术角度 理解hadoop做了什么 以wordcount为例 , key为字符。假设有两个reduce。同时假设输入文件比较大,有多个spill文件。
问题:在一个map中,如果有多个spill file,在merge过程中 hadoop是怎么保证 同一个reduce的数据在一起放着 而且 key有序?
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(3)人评论
电梯直达
正序浏览
mituan2008
发表于 2015-9-14 18:24:43
通过分区函数保证的
比如:男和女分区
通过上面即可
让男的一个reduce
女的一个reduce.
至于是否有序,不一定保证,可以通过二次排序,让他们有顺序
Hadoop mapreduce自定义分区HashPartitioner
新手指导:MapReduce中的分区方法Partitioner
回复
使用道具
举报
显身卡
mituan2008
发表于 2015-9-14 18:25:37
类似帖子推荐:
关于mapreduce哈希分区
http://www.aboutyun.com/thread-14072-1-1.html
回复
使用道具
举报
显身卡
jancan
发表于 2015-9-14 20:57:42
研究的挺深的,学习学习
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
zcfightings
中级会员
关注
21
主题
74
帖子
9
粉丝
TA的主题
HBase 扫描中出现数据重复
2019-3-19
预测hive所消耗资源
2017-8-29
spark thrift server的两个问题 求帮忙分析
2017-1-18
hiveserver2使用连接池的问题
2016-11-2
获取hive作业实体
2016-9-18
24小时热文
Spark机器学习
Spark机器学习算法、源码及实战详解
《深度实践Spark机器学习(吴茂贵)》高清
《Spark机器学习第2版》高清中文PDF
像高手一样发言:七种常见工作场景的说话之
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈