分享

利用hive,怎么统计每个页面的访问时间

Riordon 发表于 2015-4-24 10:13:55 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 6 41868
假设hive中有记录如下:username        access_url                        access_time(时间戳)  
ajiawujin        www.baidu.com                1429200755
ajiawujin        www.baidu.com                1429200765
ajiawujin        www.baidu.com                1429200775
ajiawujin        www.baidu.com                1429200785
ajiawujin        www.baidu.com                1429200855
ajiawujin        www.baidu.com                1429200955
ajiawujin        www.aboutyun.com        1429201055
ajiawujin        www.aboutyun.com        1429201255
ajiawujin        www.aboutyun.com        1429201355
ajiawujin        www.aboutyun.com        1429201455


想得到的结果:
username  access_url                        total_time
ajiawujin        www.baidu.com                ***
ajiawujin        www.aboutyun.com        ***

要实现上面的结果,就要计算相邻两天记录的时间差(同一url下)

用hive怎么实现呢?
另外大家统计url的访问时长,都是怎么做的呢?
忘大神们赐教,谢谢...





已有(6)人评论

跳转到指定楼层
s060403072 发表于 2015-4-24 12:30:10
这个涉及到子查询,所以需要对sql及hive有个深入的了解思路:
1.首先对时间进行统计
2.统计完毕对url去重使用distinct



回复

使用道具 举报

Riordon 发表于 2015-4-24 12:52:57
s060403072 发表于 2015-4-24 12:30
这个涉及到子查询,所以需要对sql及hive有个深入的了解思路:
1.首先对时间进行统计
2.统计完毕对url去 ...

对时间进行统计,这个设计到应该涉及聚合操作,怎么实现呢 ?
回复

使用道具 举报

s060403072 发表于 2015-4-24 12:56:09
Riordon 发表于 2015-4-24 12:52
对时间进行统计,这个设计到应该涉及聚合操作,怎么实现呢 ?

看你想统计什么了
如果想统计总的访问时间,你需要根据字段算出时间差
然后时间差相加,就是总的访问时间
回复

使用道具 举报

Riordon 发表于 2015-4-24 13:38:37
s060403072 发表于 2015-4-24 12:56
看你想统计什么了
如果想统计总的访问时间,你需要根据字段算出时间差
然后时间差相加,就是总的访问时 ...

"根据字段算出时间差" ,这个是怎么做到的,时间差=下一次时间戳-上一次时间戳, 可是这涉及到两条记录,这个怎么实现?
回复

使用道具 举报

jixianqiuxue 发表于 2015-4-24 14:53:11
Riordon 发表于 2015-4-24 13:38
"根据字段算出时间差" ,这个是怎么做到的,时间差=下一次时间戳-上一次时间戳, 可是这涉及到两条记录, ...

这个有些复杂。
比如访问时间
begin      end
14:48     14:50
那么就是
select  end-begin from table
楼主的这个问题太过复杂,但是基本的知识缺乏。所以这个难度太大。
而且涉及到sql嵌套的内容。
建议先补充基础知识
回复

使用道具 举报

Riordon 发表于 2015-4-24 15:51:57
jixianqiuxue 发表于 2015-4-24 14:53
这个有些复杂。
比如访问时间
begin      end

恩恩,是的,先补基础...
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条