分享

distcp命令的map数量究竟是如何确定的?

heelo 发表于 2017-6-26 19:42:42 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 7860
本帖最后由 heelo 于 2017-6-26 19:46 编辑

查阅的资料显示是有相应的一个公式,但是我发现和我实际运行的不太一致。我的情况大致是这样:三台物理机组成的集群,一台物理机组成的伪分布式集群,在三台的集群上运行distcp命令传输一个大小为1.6GB,包含14个文件的文件夹,按照公式取min(total/byte_per_map,20*num_task_trackers),应该是min(7,40)=7,不设置-m时查看job页面发现map的数量为8,设置map数量的话,-m设置为20时实际为8,设置为3时实际为4,设置为1时实际为1,设置为50时实际数量为14,另外在设置为1时,可以查看到相应的map任务,但是该任务只处理了14个中的一个文件,其余的13个文件也是该map任务在该节点上处理的吗?想知道具体是怎么确定的,有点弄不明白

已有(2)人评论

跳转到指定楼层
nextuser 发表于 2017-6-26 20:50:32
最好写的详细些。按照你的这个逻辑,你是没有错的。然后大家都不会发现错误
推荐参考文章
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么?
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6945


回复

使用道具 举报

heelo 发表于 2017-6-27 10:25:51
nextuser 发表于 2017-6-26 20:50
最好写的详细些。按照你的这个逻辑,你是没有错的。然后大家都不会发现错误
推荐参考文章
如何确定 Hadoo ...


好的,我看一下,麻烦了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条