本帖最后由 desehawk 于 2014-11-16 22:50 编辑
一、
1、hadoop集群搭建过程,写出步骤。
2、hadoop集群运行过程中启动那些线程,各自的作用是什么?
3、/tmp/hadoop-root/dfs/name the path is not exists or is not accessable.
NameNode main中报错,该怎么解决。(大意这样 一个什么异常)
4、工作中编写mapreduce用到的语言,编写一个mapreduce程序。
5、hadoop命令
1)杀死一个job任务 (杀死50030端口的进程即可)
2)删除/tmp/aaa文件目录
3)hadoop集群添加或删除节点时,刷新集群状态的命令
6、日志的固定格式:
a,b,c,d
a,a,f,e
b,b,d,f
使用一种语言编写mapreduce任务,统计每一列最后字母的个数。
7、hadoop的调度器有哪些,工作原理。
8、mapreduce的join方法有哪些?
9、Hive元数据保存的方法有哪些,各有什么特点?
10、java实现非递归二分法算法。
11、mapreduce中Combiner和Partition的作用。
12、用linux实现下列要求:
- ip username
- a.txt
- 210.121.123.12 zhangsan
- 34.23.56.78 lisi
- 11.56.56.72 wanger
- .....
-
- b.txt
- 58.23.53.132 liuqi
- 34.23.56.78 liba
- .....
复制代码
a.txt,b.txt中至少100万行。
1)a.txt,b.txt中各自的ip个数,ip的总个数。
2)a.txt中存在的ip而b.txt中不存在的ip。
3)每个username出现的总个数,每个username对应的ip个数。
13、大意是 hadoop中java、streaming、pipe处理数据各有特点。
14、如何实现mapreduce的二次排序。
二、
15、面试官上来就问hadoop的调度机制,
16、机架感知,
17、MR数据倾斜原因和解决方案,
18、集群HA
三、
19、如果让你设计,你觉得一个分布式文件系统应该如何设计,考虑哪方面内容;
每天百亿数据入hbase,如何保证数据的存储正确和在规定的时间里全部录入完毕,
不残留数据。
20、对于hive,你写过哪些UDF函数,作用是什么
21、hdfs的数据压缩算法
22、mapreduce的调度模式
23、hive底层与数据库交互原理
24、hbase过滤器实现原则
25、对于mahout,如何进行推荐、分类、聚类的代码二次开发分别实现那些借口
四、
26、请问下,直接将时间戳作为行健,在写入单个region时候会发生热点问题,为什么呢?
注释:来自网络搜集 |