bjxixun2 发表于 2013-10-16 13:41:12

Hadoop阿里巴巴面试题目

本帖最后由 nettman 于 2013-10-27 15:27 编辑

Hadoop阿里巴巴面试题目
前段时间接到阿里巴巴面试云计算,拿出来给我们共享下
1、hadoop运转的原理?
2、mapreduce的原理?
3、HDFS存储的机制?
4、举一个简略的比方阐明mapreduce是怎么来运转的 ?
5、面试的人给你出一些疑问,让你用mapreduce来完成?
      比方:如今有10个文件夹,每个文件夹都有1000000个url.如今让你找出top1000000url。
6、hadoop中Combiner的效果?
            

            
               
               

stark_summer 发表于 2014-10-20 12:02:09

宋江,卢俊义,吴用,公孙胜,关胜,林冲,秦明,呼延灼,花荣,柴进,李应,朱仝,鲁智深,武松,董平,张清,杨志,徐宁,索超,戴宗,刘唐,李逵,史进,穆弘,雷横,李俊,阮小二,张横,阮小五,张顺,阮小七,杨雄,石秀,解珍,解宝,燕青,朱武,黄信,孙立,宣赞,郝思文,韩滔,彭玘,单廷珪,魏定国,萧让,裴宣,欧鹏,邓飞,燕顺,杨林,凌振,蒋敬,吕方,郭 盛,安道全,皇甫端, 王英,扈三娘,鲍旭,樊瑞,孔明,孔亮,项充,李衮,金大坚,马麟,童威,童猛,孟康,侯健,陈达,杨春,郑天寿,陶宗旺,宋清,乐和,龚旺,丁得孙,穆春,曹正,宋万,杜迁,薛永,施恩,周通,李忠,杜兴,汤隆,邹渊,邹润,朱富,朱贵,蔡福,蔡庆,李立,李云,焦挺,石勇,孙新,顾大嫂,张青,孙二娘,王定六,郁保四,白胜,时迁,段景柱。等108人感觉很赞

zhangkai08111 发表于 2013-10-16 13:42:44

本帖最后由 nettman 于 2013-10-27 15:29 编辑

1.hadoop即是mapreduce的进程,服务器上的一个目录节点加上多个数据节点,将程序传递到各个节点,再节点上进行计算。
2.mapreduce即是将数据存储到不一样的节点上,用map方法对应办理,在各个节点上进行计算,最后由reduce进行合并。
3.java程序和namenode合作,把数据存放在不一样的数据节点上
4.怎么运转用图来表明最好了。图无法画。谷歌下
5.不思考歪斜,功能,运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算个url的sum,下一个job map顶用url作key,运用-sum作二次排序,reduce中取top10000000
第二种方法,建hive表 A,挂分区channel,每个文件夹是一个分区.
select x.url,x.c from(select url,count(1) as c from Awhere channel ='' group by url)x order by x.c desc limie 1000000;
6 combiner也是一个reduce,它可以削减map到reudce的数据传输,进步shuff速度。牢记平均值不要用。需求输入=map的输出,输出=reduce的输入。

nettman 发表于 2013-10-27 15:29:51

我顶,好帖

junzi234 发表于 2014-6-12 09:25:51

好多大公司的面试题哦

InSight 发表于 2014-10-10 22:42:12

核心在于原理。

wubaozhou 发表于 2014-12-30 23:10:05

{:soso_e181:}{:soso_e181:}

懒惰的穷人 发表于 2015-1-29 21:53:35

楼主好人啊

eiasy 发表于 2015-1-30 15:44:21

知道了,已收藏。正在学习

chinaboy2005 发表于 2015-1-31 17:42:55

{:soso_e179:}
页: [1] 2
查看完整版本: Hadoop阿里巴巴面试题目