作业在单机上跑的时间和在集群上跑的时间差不多,这是为什么?

查看数: 10283 | 评论数: 1 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2014-12-6 18:14

正文摘要:

我的一个作业大小事30M,在单机上面跑的时间和在集群上面跑的时间差不多, 这边Node下面只有一个节点,是不是意味着这个作业只有一个datanode在跑,其他datanode都没有参加计算? 是不是我的集群配置有什么 ...

回复

desehawk 发表于 2014-12-6 18:58:03

数据存储可能发生倾斜,楼主可以了解下ApplicationMaster,它只是一个进程。如果不确定,可以让集群的数据reblance一下。

MRv1主要由编程模型(MapReduce API)、资源管理与作业控制块(由JobTracker和TaskTracker组成)和数据处理引擎(由MapTask和ReduceTask组成)三部分组成。而YARN出现之后,资源管理模块则交由YARN实现,这样为了让MapReduce框架运行在YARN上,仅需要一个ApplicationMaster组件完成作业控制模块功能即可,
对于ApplicationMaster,可以参考
hadoop2 YARN/Mv2中 ApplicationMaster相关问题及介绍
Hadoop概念性问题(关于ApplicationMaster




关闭

推荐上一条 /2 下一条