Hadoop阿里巴巴面试题目
本帖最后由 nettman 于 2013-10-27 15:27 编辑Hadoop阿里巴巴面试题目
前段时间接到阿里巴巴面试云计算,拿出来给我们共享下
1、hadoop运转的原理?
2、mapreduce的原理?
3、HDFS存储的机制?
4、举一个简略的比方阐明mapreduce是怎么来运转的 ?
5、面试的人给你出一些疑问,让你用mapreduce来完成?
比方:如今有10个文件夹,每个文件夹都有1000000个url.如今让你找出top1000000url。
6、hadoop中Combiner的效果?
宋江,卢俊义,吴用,公孙胜,关胜,林冲,秦明,呼延灼,花荣,柴进,李应,朱仝,鲁智深,武松,董平,张清,杨志,徐宁,索超,戴宗,刘唐,李逵,史进,穆弘,雷横,李俊,阮小二,张横,阮小五,张顺,阮小七,杨雄,石秀,解珍,解宝,燕青,朱武,黄信,孙立,宣赞,郝思文,韩滔,彭玘,单廷珪,魏定国,萧让,裴宣,欧鹏,邓飞,燕顺,杨林,凌振,蒋敬,吕方,郭 盛,安道全,皇甫端, 王英,扈三娘,鲍旭,樊瑞,孔明,孔亮,项充,李衮,金大坚,马麟,童威,童猛,孟康,侯健,陈达,杨春,郑天寿,陶宗旺,宋清,乐和,龚旺,丁得孙,穆春,曹正,宋万,杜迁,薛永,施恩,周通,李忠,杜兴,汤隆,邹渊,邹润,朱富,朱贵,蔡福,蔡庆,李立,李云,焦挺,石勇,孙新,顾大嫂,张青,孙二娘,王定六,郁保四,白胜,时迁,段景柱。等108人感觉很赞 本帖最后由 nettman 于 2013-10-27 15:29 编辑
1.hadoop即是mapreduce的进程,服务器上的一个目录节点加上多个数据节点,将程序传递到各个节点,再节点上进行计算。
2.mapreduce即是将数据存储到不一样的节点上,用map方法对应办理,在各个节点上进行计算,最后由reduce进行合并。
3.java程序和namenode合作,把数据存放在不一样的数据节点上
4.怎么运转用图来表明最好了。图无法画。谷歌下
5.不思考歪斜,功能,运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算个url的sum,下一个job map顶用url作key,运用-sum作二次排序,reduce中取top10000000
第二种方法,建hive表 A,挂分区channel,每个文件夹是一个分区.
select x.url,x.c from(select url,count(1) as c from Awhere channel ='' group by url)x order by x.c desc limie 1000000;
6 combiner也是一个reduce,它可以削减map到reudce的数据传输,进步shuff速度。牢记平均值不要用。需求输入=map的输出,输出=reduce的输入。 我顶,好帖 好多大公司的面试题哦 核心在于原理。 {:soso_e181:}{:soso_e181:} 楼主好人啊 知道了,已收藏。正在学习 {:soso_e179:}
页:
[1]
2