About云-梭伦科技»专题 › 交流区 › 技术交流 › MapReduce › 作业在单机上跑的时间和在集群上跑的时间差不多，这是为 ...

作业在单机上跑的时间和在集群上跑的时间差不多，这是为什么？

查看数: 10283 | 评论数: 1 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

nickpro

发布时间: 2014-12-6 18:14

正文摘要:

我的一个作业大小事30M，在单机上面跑的时间和在集群上面跑的时间差不多，这边Node下面只有一个节点，是不是意味着这个作业只有一个datanode在跑，其他datanode都没有参加计算？是不是我的集群配置有什么 ...

desehawk 发表于 2014-12-6 18:58:03

数据存储可能发生倾斜，楼主可以了解下ApplicationMaster，它只是一个进程。如果不确定，可以让集群的数据reblance一下。

MRv1主要由编程模型(MapReduce API)、资源管理与作业控制块(由JobTracker和TaskTracker组成)和数据处理引擎(由MapTask和ReduceTask组成)三部分组成。而YARN出现之后，资源管理模块则交由YARN实现，这样为了让MapReduce框架运行在YARN上，仅需要一个ApplicationMaster组件完成作业控制模块功能即可，
对于ApplicationMaster，可以参考
hadoop2 YARN/Mv2中 ApplicationMaster相关问题及介绍
Hadoop概念性问题（关于ApplicationMaster）

图文精华

作业在单机上跑的时间和在集群上跑的时间差不多，这是为什么？

正文摘要:

回复

推荐 /2