MapReduce面试题求教

1.假设hadoop中有一个商品访问日志，格式为：productid（商品编号），uid（访客编号），visittime（访问时间）。设计一个map/reduce程序，实现统计最近7天访问最频繁的前10000个访客

思路：

(1)首先按访客编号分组，统计每个访客的访问次数；

TextInputFormat 和KeyValueInputFormat 到底选哪一个？？

怎么分离出uid？？

k2---uid（访客编号），v2---IntWritable类型的1

(2)最近7天；

肯定和visittime有关，但是不知道怎么处理？求大神分析下

(3)Top 10000

2.假设hadoop中存在用户访问日志，日志中字段定义为：[用户编号，用户访问时间，用户方位页面链接

样例如下：

id2 2015-11-02 23:00:00 url1

id1 2015-11-03 12:30:01 url2

id1 2015-11-01 14:12:43 url3

id3 2015-11-03 08:12:23 url4

id3 2015-11-01 11:33:28 url5

id2 2015-11-04 18:12:00 url6

id2 2015-11-01 10:12:12 url7

…...

设计一个map/reduce程序，对于每个用户，将其访问过的URL按时间顺序排列输出，结果如下：

id1 url3, url2

id2 url7, url1, url6

id3 url5, url4

…..

这个用SQL解的话，还有点思路，但是很难实现。用MR没有思路啊？？求大神分析下

xuanxufeng · 发表于 2016-11-17 19:23:32

本帖最后由 xuanxufeng 于 2016-11-17 19:24 编辑

TextInputFormat 就可以
output可以自定义。
思路：
map进行分割，reduce统计，然后输出前10000访客对于最近七天，楼主在map里可以只读取最近七天的数据，其它的可以通过时间都过滤掉

详细可以参考这个
使用mapreduce分析日志统计ip个数
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20318

非常的类似，而且有代码实现，楼主简单的改下就可以了

tonydu · 发表于 2016-11-17 21:45:35

xuanxufeng 发表于 2016-11-17 19:23
TextInputFormat 就可以
output可以自定义。
思路：

谢谢，给了我一些思路，但是还是有些问题自己没法解决。如时间怎么过滤掉？你总得把时间字段分离出来吧。
我自己再去摸索摸索。

对了，大神，第二题能否给点思路？

nextuser · 发表于 2016-11-18 09:55:44

tonydu 发表于 2016-11-17 21:45
谢谢，给了我一些思路，但是还是有些问题自己没法解决。如时间怎么过滤掉？你总得把时间字段分离出来吧。 ...

第二个更简单了。
首先确定好分区函数，如果不符合自己的。就自定义个。

map处理完后，通过分区函数得到如下形式
id1 url1,url2

然后在对url1排序，这个可能都不需要排了。默认已经排好序了。

然后reduce直接输出这个结果即可

所以关键是弄懂分区函数，以及对mapreduce的理解。

ggggying12 · 发表于 2017-2-22 18:20:31

好好学习，天天向上

图文精华

MapReduce面试题求教

已有(4)人评论

最佳新人

活跃会员

热心会员

推荐 /2