xp007 发表于 2016-8-23 19:51:40

面试过程被问到实时流处理的问题,高手请进!

实时数据流

日志格式:
   uid    logintime   ***   *** ***

需求 计算:
   8月1号新增的用户量(比如说有70)
   8月2号相比8月1号新增有多少用户量。
   8月3号相比8月2号新增有多少用户量。
   ....
   ....
   当前相比昨天新增有多少用户量。

提示:
    每个用户可能一天登录多次系统,也有可能不登录。

使用你所了解的实时框架来计算。       


nextuser 发表于 2016-8-23 20:02:46

这个其实传统程序就可以实现。首先需要具有这个功底。会传统编程实现,然后在套用大数据架构就可以了。
如果想实时可以使用这个框架flume-ng+Kafka+Storm+HDFS
提供参考:
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6855
当然需要结合自己的实际情况。

也可以使用spark,不过这方面的资料少一些



liuzhixin137 发表于 2016-8-25 10:49:49

这个看对实时性的要求吧,要求不高可以用spark streaming

kafka + spark streaming

看看数据量大小,数据量不大,每条数据可以写到hive,然后每天凌晨 跑一条hql,统计所有的用户id,当然是去重的,减掉昨天的总用户量,当然就是一天新增的用户量。

如果数据量很大,可以放到hbase,照样按照这样来做。

还要看统计别的指标是否方便简洁 来选取合适的组件。
页: [1]
查看完整版本: 面试过程被问到实时流处理的问题,高手请进!