面试过程被问到实时流处理的问题，高手请进！

实时数据流

日志格式：
uid logintime *** *** ***

需求计算：
8月1号新增的用户量 (比如说有70)
8月2号相比8月1号新增有多少用户量。
8月3号相比8月2号新增有多少用户量。
....
....
当前相比昨天新增有多少用户量。

提示：
每个用户可能一天登录多次系统，也有可能不登录。

使用你所了解的实时框架来计算。

nextuser · 发表于 2016-8-23 20:02:46

这个其实传统程序就可以实现。首先需要具有这个功底。会传统编程实现，然后在套用大数据架构就可以了。
如果想实时可以使用这个框架flume-ng+Kafka+Storm+HDFS
提供参考：
大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6855
当然需要结合自己的实际情况。

也可以使用spark，不过这方面的资料少一些

liuzhixin137 · 发表于 2016-8-25 10:49:49

这个看对实时性的要求吧，要求不高可以用spark streaming

kafka + spark streaming

看看数据量大小，数据量不大，每条数据可以写到hive，然后每天凌晨跑一条hql，统计所有的用户id，当然是去重的，减掉昨天的总用户量，当然就是一天新增的用户量。

如果数据量很大，可以放到hbase，照样按照这样来做。

还要看统计别的指标是否方便简洁来选取合适的组件。

图文精华

面试过程被问到实时流处理的问题，高手请进！

已有(2)人评论

最佳新人

活跃会员

热心会员

推荐 /2