About云-梭伦科技»专题 › 技术学习(版主发帖区) › 大数据学习 › Hive|数据仓库 › 利用HQL统计: 新增用户数，日活，留存率

利用HQL统计: 新增用户数，日活，留存率

查看数: 53243 | 评论数: 11 | 收藏 7

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

feilong

发布时间: 2017-3-9 16:21

正文摘要:

本帖最后由 feilong 于 2017-3-9 17:19 编辑问题导读 1.每天新增用户数怎么实现？ 2.日活怎么实现？ 3.留存率怎么实现？用户行为触发的日志上报,已经存放在Hive的外部分区表中. 结构如下: ...

老街的腔调 发表于 2017-12-7 17:31:41

666666

w86432216 发表于 2017-4-28 15:33:08

hive 不是不支持in和not in查询吗？

xmhxmhxmh 发表于 2017-4-27 11:07:04

非常棒，只是讨论的有点不明白，为什么flume -> kafka -> flume -> hdfs，kafka为什么还要到flume呢？kafka之后一般是mr或者spark处理数据啊？

llp 发表于 2017-3-10 19:33:42

感谢分享，非常棒

feilong 发表于 2017-3-10 11:51:38

醉半城发表于 2017-3-10 10:55
嗯，那就是离线：flume -> kafka -> flume -> hdfs 实时：flume -> kafka -> storm/spark streaming ?
...

对的。

醉半城 发表于 2017-3-10 10:55:25

feilong 发表于 2017-3-10 10:36
你给的方案可能会出现离线和实时数据不一致的情况，尤其是某一侧流程突然down掉的时候。flume打入到kaf ...

嗯，那就是离线：flume -> kafka -> flume -> hdfs 实时：flume -> kafka -> storm/spark streaming ?

feilong 发表于 2017-3-10 10:36:43

醉半城发表于 2017-3-10 10:09
谢谢，一般情况是，原始应用的访问日志是写文件的形式，每天一个文件夹。如果改为打入kafka，系统改变会 ...

你给的方案可能会出现离线和实时数据不一致的情况，尤其是某一侧流程突然down掉的时候。flume打入到kafka，再在kafka后接离线和实时，就不会出现那种问题。改动的话，flume侧就是改下sink的配置，实时部分属于新增，谈不上对原先流程的影响，离线部分是比原先多了2步，保证这2步没问题就可以了。 flume打入到kafka照样可以用spooldir的形式，另flume也可以从kafka导出数据到hdfs。

醉半城 发表于 2017-3-10 10:09:20

feilong 发表于 2017-3-10 09:51
可以先将日志打入到kafka，然后将从kafka中读出的日志进行清洗，清洗完建新的topic再打回kafka，离线部分 ...

谢谢，一般情况是，原始应用的访问日志是写文件的形式，每天一个文件夹。如果改为打入kafka，系统改变会比较大。
如果使用flume的exec source去收集日志，离线：flume -> hdfs ，实时：flume -> kafka -> storm/spark streaming 这种方案怎样？比较担心flume exec source的性能和丢数据情况。

美丽天空 发表于 2017-3-10 10:02:38

感谢分享

图文精华

利用HQL统计: 新增用户数，日活，留存率

正文摘要:

回复

推荐 /2