面试过程被问到实时流处理的问题,高手请进!
实时数据流日志格式:
uid logintime *** *** ***
需求 计算:
8月1号新增的用户量(比如说有70)
8月2号相比8月1号新增有多少用户量。
8月3号相比8月2号新增有多少用户量。
....
....
当前相比昨天新增有多少用户量。
提示:
每个用户可能一天登录多次系统,也有可能不登录。
使用你所了解的实时框架来计算。
这个其实传统程序就可以实现。首先需要具有这个功底。会传统编程实现,然后在套用大数据架构就可以了。
如果想实时可以使用这个框架flume-ng+Kafka+Storm+HDFS
提供参考:
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6855
当然需要结合自己的实际情况。
也可以使用spark,不过这方面的资料少一些
这个看对实时性的要求吧,要求不高可以用spark streaming
kafka + spark streaming
看看数据量大小,数据量不大,每条数据可以写到hive,然后每天凌晨 跑一条hql,统计所有的用户id,当然是去重的,减掉昨天的总用户量,当然就是一天新增的用户量。
如果数据量很大,可以放到hbase,照样按照这样来做。
还要看统计别的指标是否方便简洁 来选取合适的组件。
页:
[1]