本帖最后由 heelo 于 2017-6-26 19:46 编辑
查阅的资料显示是有相应的一个公式,但是我发现和我实际运行的不太一致。我的情况大致是这样:三台物理机组成的集群,一台物理机组成的伪分布式集群,在三台的集群上运行distcp命令传输一个大小为1.6GB,包含14个文件的文件夹,按照公式取min(total/byte_per_map,20*num_task_trackers),应该是min(7,40)=7,不设置-m时查看job页面发现map的数量为8,设置map数量的话,-m设置为20时实际为8,设置为3时实际为4,设置为1时实际为1,设置为50时实际数量为14,另外在设置为1时,可以查看到相应的map任务,但是该任务只处理了14个中的一个文件,其余的13个文件也是该map任务在该节点上处理的吗?想知道具体是怎么确定的,有点弄不明白
|
|