Hadoop阿里巴巴面试题目-面试区-About云-梭伦科技

bjxixun2 发表于 2013-10-16 13:41:12

Hadoop阿里巴巴面试题目

本帖最后由 nettman 于 2013-10-27 15:27 编辑

Hadoop阿里巴巴面试题目
前段时间接到阿里巴巴面试云计算,拿出来给我们共享下
1、hadoop运转的原理?
2、mapreduce的原理?
3、HDFS存储的机制?
4、举一个简略的比方阐明mapreduce是怎么来运转的 ?
5、面试的人给你出一些疑问,让你用mapreduce来完成？
   比方:如今有10个文件夹,每个文件夹都有1000000个url.如今让你找出top1000000url。
6、hadoop中Combiner的效果?

stark_summer 发表于 2014-10-20 12:02:09

宋江，卢俊义，吴用，公孙胜，关胜，林冲，秦明，呼延灼，花荣，柴进，李应，朱仝，鲁智深，武松，董平，张清，杨志，徐宁，索超，戴宗，刘唐，李逵，史进，穆弘，雷横，李俊，阮小二，张横，阮小五，张顺，阮小七，杨雄，石秀，解珍，解宝，燕青，朱武，黄信，孙立，宣赞，郝思文，韩滔，彭玘，单廷珪，魏定国，萧让，裴宣，欧鹏，邓飞，燕顺，杨林，凌振，蒋敬，吕方，郭盛，安道全，皇甫端，王英，扈三娘，鲍旭，樊瑞，孔明，孔亮，项充，李衮，金大坚，马麟，童威，童猛，孟康，侯健，陈达，杨春，郑天寿，陶宗旺，宋清，乐和，龚旺，丁得孙，穆春，曹正，宋万，杜迁，薛永，施恩，周通，李忠，杜兴，汤隆，邹渊，邹润，朱富，朱贵，蔡福，蔡庆，李立，李云，焦挺，石勇，孙新，顾大嫂，张青，孙二娘，王定六，郁保四，白胜，时迁，段景柱。等108人感觉很赞

zhangkai08111 发表于 2013-10-16 13:42:44

本帖最后由 nettman 于 2013-10-27 15:29 编辑

1.hadoop即是mapreduce的进程，服务器上的一个目录节点加上多个数据节点，将程序传递到各个节点，再节点上进行计算。
2.mapreduce即是将数据存储到不一样的节点上，用map方法对应办理，在各个节点上进行计算，最后由reduce进行合并。
3.java程序和namenode合作，把数据存放在不一样的数据节点上
4.怎么运转用图来表明最好了。图无法画。谷歌下
5.不思考歪斜，功能，运用2个job，第一个job直接用filesystem读取10个文件夹作为map输入，url做key，reduce计算个url的sum，下一个job map顶用url作key，运用-sum作二次排序，reduce中取top10000000
第二种方法，建hive表 A，挂分区channel，每个文件夹是一个分区.
select x.url,x.c from(select url,count(1) as c from Awhere channel ='' group by url)x order by x.c desc limie 1000000;
6 combiner也是一个reduce，它可以削减map到reudce的数据传输，进步shuff速度。牢记平均值不要用。需求输入=map的输出，输出=reduce的输入。

nettman 发表于 2013-10-27 15:29:51

我顶，好帖

junzi234 发表于 2014-6-12 09:25:51

好多大公司的面试题哦

InSight 发表于 2014-10-10 22:42:12

核心在于原理。

wubaozhou 发表于 2014-12-30 23:10:05

{:soso_e181:}{:soso_e181:}

懒惰的穷人 发表于 2015-1-29 21:53:35

楼主好人啊

eiasy 发表于 2015-1-30 15:44:21

知道了，已收藏。正在学习

chinaboy2005 发表于 2015-1-31 17:42:55

{:soso_e179:}

页: [1] 2

About云-梭伦科技's Archiver

Hadoop阿里巴巴面试题目