利用HQL统计: 新增用户数,日活,留存率

查看数: 53243 | 评论数: 11 | 收藏 7
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2017-3-9 16:21

正文摘要:

本帖最后由 feilong 于 2017-3-9 17:19 编辑 问题导读 1.每天新增用户数怎么实现? 2.日活怎么实现? 3.留存率怎么实现? 用户行为触发的日志上报,已经存放在Hive的外部分区表中. 结构如下: ...

回复

老街的腔调 发表于 2017-12-7 17:31:41
666666
w86432216 发表于 2017-4-28 15:33:08
hive 不是不支持in和not in查询吗?
xmhxmhxmh 发表于 2017-4-27 11:07:04
非常棒,只是讨论的有点不明白,为什么flume -> kafka -> flume -> hdfs,kafka为什么还要到flume呢?kafka之后一般是mr或者spark处理数据啊?
llp 发表于 2017-3-10 19:33:42
感谢分享,非常棒
feilong 发表于 2017-3-10 11:51:38
醉半城 发表于 2017-3-10 10:55
嗯,那就是离线:flume -> kafka -> flume -> hdfs  实时:flume -> kafka -> storm/spark streaming ?
...

对的。
醉半城 发表于 2017-3-10 10:55:25
feilong 发表于 2017-3-10 10:36
你给的方案可能会出现 离线和实时数据不一致的情况,尤其是 某一侧流程突然down掉的时候。flume打入到kaf ...

嗯,那就是离线:flume -> kafka -> flume -> hdfs  实时:flume -> kafka -> storm/spark streaming ?

feilong 发表于 2017-3-10 10:36:43
醉半城 发表于 2017-3-10 10:09
谢谢,一般情况是,原始应用的访问日志是写文件的形式,每天一个文件夹。如果改为打入kafka,系统改变会 ...

你给的方案可能会出现 离线和实时数据不一致的情况,尤其是 某一侧流程突然down掉的时候。flume打入到kafka,再在kafka后接离线和实时,就不会出现那种问题。改动的话,flume侧就是改下sink的配置,实时部分属于新增,谈不上对原先流程的影响,离线部分是比原先多了2步,保证这2步没问题就可以了。 flume打入到kafka照样可以用spooldir的形式,另flume也可以从kafka导出数据到hdfs。
醉半城 发表于 2017-3-10 10:09:20
feilong 发表于 2017-3-10 09:51
可以先将日志打入到kafka,然后将从kafka中读出的日志进行清洗,清洗完建新的topic再打回kafka,离线部分 ...

谢谢,一般情况是,原始应用的访问日志是写文件的形式,每天一个文件夹。如果改为打入kafka,系统改变会比较大。
如果使用flume的exec source去收集日志,离线:flume -> hdfs ,实时:flume -> kafka -> storm/spark streaming 这种方案怎样?比较担心flume exec source的性能和丢数据情况。
美丽天空 发表于 2017-3-10 10:02:38
感谢分享
关闭

推荐上一条 /2 下一条