分享

Hadoop问答

Joker 发表于 2015-7-27 17:36:33 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 11207
之前面试过一些大数据的职位,当然肯定要被问到一些内容的。那么我就说说几点

1. Hadoop如果一个Task运行比其它的慢,你如何去解决的?
2. Hadoop一些Task资源争夺
3. 当其它Task都运行完毕还有一到二个未运行完毕,你是如何?

当时本来想回答这三个问题,但是面试官,太JB装了。直接就说,我不懂。

那么主要就大概的叙述一下,有其他的答案也可以共享,我说的不一定对。

1. 应该是数据倾斜造成的影响,这个可以百度找到解决数据倾斜问题
2. 资源争夺,这一块,我个人认为:Hadoop资源隔离目前做的还是较好的,如果资源不足了也有调度器,现在默认的不是FIFO调度器了
3. Hadoop有这种机制,当其它的Task都运行完毕还剩1~ 2个会在启动JVM来运行,谁先运行完毕就用谁的,没有运行完毕的Task只有被kill了

如果有不同答案欢迎讨论。

已有(2)人评论

跳转到指定楼层
a3087661 发表于 2015-7-27 21:22:19
一和三应该问题思路应该都差不多。第二个是他是想问yarn的资源保证和抢占机制么?
回复

使用道具 举报

Joker 发表于 2015-7-27 21:40:40
a3087661 发表于 2015-7-27 21:22
一和三应该问题思路应该都差不多。第二个是他是想问yarn的资源保证和抢占机制么?

第二个问题我个人感觉他想问我的是:你如何去处理资源抢夺情况,期间更本没有提到yarn。假如没有yarn你有什么更好的回答方式吗?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条