分享

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

gefieder 2015-4-29 23:35:41 发表于 连载型 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 126742
问题导读:
1.NTILE作用是什么?
2.按照pv降序排列,生成分组内每天的pv名次可使用哪个窗口函数?
3.RANK 和 DENSE_RANK作用是什么?



接上篇:Hive分析窗口函数(一)SUM,AVG,MIN,MAx

本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。
Hive版本为 apache-hive-0.13.1

注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,Hive分析窗口函数(一)SUM,AVG,MIN,MAx
数据准备:
  1.     cookie1,2015-04-10,1
  2.     cookie1,2015-04-11,5
  3.     cookie1,2015-04-12,7
  4.     cookie1,2015-04-13,3
  5.     cookie1,2015-04-14,2
  6.     cookie1,2015-04-15,4
  7.     cookie1,2015-04-16,4
  8.     cookie2,2015-04-10,2
  9.     cookie2,2015-04-11,3
  10.     cookie2,2015-04-12,5
  11.     cookie2,2015-04-13,6
  12.     cookie2,2015-04-14,3
  13.     cookie2,2015-04-15,9
  14.     cookie2,2015-04-16,7
  15.      
  16.     CREATE EXTERNAL TABLE lxw1234 (
  17.     cookieid string,
  18.     createtime string, --day
  19.     pv INT
  20.     ) ROW FORMAT DELIMITED
  21.     FIELDS TERMINATED BY ','
  22.     stored as textfile location '/tmp/lxw11/';
  23.      
  24.     DESC lxw1234;
  25.     cookieid STRING
  26.     createtime STRING
  27.     pv INT
  28.      
  29.     hive> select * from lxw1234;
  30.     OK
  31.     cookie1 2015-04-10 1
  32.     cookie1 2015-04-11 5
  33.     cookie1 2015-04-12 7
  34.     cookie1 2015-04-13 3
  35.     cookie1 2015-04-14 2
  36.     cookie1 2015-04-15 4
  37.     cookie1 2015-04-16 4
  38.     cookie2 2015-04-10 2
  39.     cookie2 2015-04-11 3
  40.     cookie2 2015-04-12 5
  41.     cookie2 2015-04-13 6
  42.     cookie2 2015-04-14 3
  43.     cookie2 2015-04-15 9
  44.     cookie2 2015-04-16 7
复制代码

NTILE
NTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值
NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW)
如果切片不均匀,默认增加第一个切片的分布
  1.     SELECT
  2.     cookieid,
  3.     createtime,
  4.     pv,
  5.     NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn1,        --分组内将数据分成2片
  6.     NTILE(3) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn2, --分组内将数据分成3片
  7.     NTILE(4) OVER(ORDER BY createtime) AS rn3 --将所有数据分成4片
  8.     FROM lxw1234
  9.     ORDER BY cookieid,createtime;
  10.      
  11.     cookieid day pv rn1 rn2 rn3
  12.     -------------------------------------------------
  13.     cookie1 2015-04-10 1 1 1 1
  14.     cookie1 2015-04-11 5 1 1 1
  15.     cookie1 2015-04-12 7 1 1 2
  16.     cookie1 2015-04-13 3 1 2 2
  17.     cookie1 2015-04-14 2 2 2 3
  18.     cookie1 2015-04-15 4 2 3 3
  19.     cookie1 2015-04-16 4 2 3 4
  20.     cookie2 2015-04-10 2 1 1 1
  21.     cookie2 2015-04-11 3 1 1 1
  22.     cookie2 2015-04-12 5 1 1 2
  23.     cookie2 2015-04-13 6 1 2 2
  24.     cookie2 2015-04-14 3 2 2 3
  25.     cookie2 2015-04-15 9 2 3 4
  26.     cookie2 2015-04-16 7 2 3 4
复制代码
–比如,统计一个cookie,pv数最多的前1/3的天
  1.     SELECT
  2.     cookieid,
  3.     createtime,
  4.     pv,
  5.     NTILE(3) OVER(PARTITION BY cookieid ORDER BY pv DESC) AS rn
  6.     FROM lxw1234;
  7.      
  8.     --rn = 1 的记录,就是我们想要的结果
  9.      
  10.     cookieid day pv rn
  11.     ----------------------------------
  12.     cookie1 2015-04-12 7 1
  13.     cookie1 2015-04-11 5 1
  14.     cookie1 2015-04-15 4 1
  15.     cookie1 2015-04-16 4 2
  16.     cookie1 2015-04-13 3 2
  17.     cookie1 2015-04-14 2 3
  18.     cookie1 2015-04-10 1 3
  19.     cookie2 2015-04-15 9 1
  20.     cookie2 2015-04-16 7 1
  21.     cookie2 2015-04-13 6 1
  22.     cookie2 2015-04-12 5 2
  23.     cookie2 2015-04-14 3 2
  24.     cookie2 2015-04-11 3 3
  25.     cookie2 2015-04-10 2 3
复制代码
ROW_NUMBER

ROW_NUMBER() –从1开始,按照顺序,生成分组内记录的序列
–比如,按照pv降序排列,生成分组内每天的pv名次
ROW_NUMBER() 的应用场景非常多,再比如,获取分组内排序第一的记录;获取一个session中的第一条refer等。

  1.     SELECT
  2.     cookieid,
  3.     createtime,
  4.     pv,
  5.     ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn
  6.     FROM lxw1234;
  7.      
  8.     cookieid day pv rn
  9.     -------------------------------------------
  10.     cookie1 2015-04-12 7 1
  11.     cookie1 2015-04-11 5 2
  12.     cookie1 2015-04-15 4 3
  13.     cookie1 2015-04-16 4 4
  14.     cookie1 2015-04-13 3 5
  15.     cookie1 2015-04-14 2 6
  16.     cookie1 2015-04-10 1 7
  17.     cookie2 2015-04-15 9 1
  18.     cookie2 2015-04-16 7 2
  19.     cookie2 2015-04-13 6 3
  20.     cookie2 2015-04-12 5 4
  21.     cookie2 2015-04-14 3 5
  22.     cookie2 2015-04-11 3 6
  23.     cookie2 2015-04-10 2 7
复制代码

RANK 和 DENSE_RANK
—RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位
—DENSE_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位
  1.     SELECT
  2.     cookieid,
  3.     createtime,
  4.     pv,
  5.     RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn1,
  6.     DENSE_RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn2,
  7.     ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY pv DESC) AS rn3
  8.     FROM lxw1234
  9.     WHERE cookieid = 'cookie1';
  10.      
  11.     cookieid day pv rn1 rn2 rn3
  12.     --------------------------------------------------
  13.     cookie1 2015-04-12 7 1 1 1
  14.     cookie1 2015-04-11 5 2 2 2
  15.     cookie1 2015-04-15 4 3 3 3
  16.     cookie1 2015-04-16 4 3 3 4
  17.     cookie1 2015-04-13 3 5 4 5
  18.     cookie1 2015-04-14 2 6 5 6
  19.     cookie1 2015-04-10 1 7 6 7
  20.      
  21.     rn1: 15号和16号并列第3, 13号排第5
  22.     rn2: 15号和16号并列第3, 13号排第4
  23.     rn3: 如果相等,则按记录值排序,生成唯一的次序,如果所有记录值都相等,或许会随机排吧。
复制代码



相关内容:


Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK


Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE


Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP






资料来源:http://029bigdata.com/?p=181





欢迎加入about云群371358502、39327136,云计算爱好者群,亦可关注about云腾讯认证空间||关注本站微信

已有(1)人评论

跳转到指定楼层
gefieder 发表于 2015-4-29 23:43:03

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

问题导读:
1、CUME_DIST如何使用?
2、PERCENT_RANK作用是什么?




接上篇:Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

这两个序列分析函数不是很常用,这里也介绍一下。
注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章
Hive版本为 apache-hive-0.13.1
数据准备:
  1.     d1,user1,1000
  2.     d1,user2,2000
  3.     d1,user3,3000
  4.     d2,user4,4000
  5.     d2,user5,5000
  6.      
  7.     CREATE EXTERNAL TABLE lxw1234 (
  8.     dept STRING,
  9.     userid string,
  10.     sal INT
  11.     ) ROW FORMAT DELIMITED
  12.     FIELDS TERMINATED BY ','
  13.     stored as textfile location '/tmp/lxw11/';
  14.      
  15.      
  16.     hive> select * from lxw1234;
  17.     OK
  18.     d1 user1 1000
  19.     d1 user2 2000
  20.     d1 user3 3000
  21.     d2 user4 4000
  22.     d2 user5 5000
复制代码
CUME_DIST–CUME_DIST 小于等于当前值的行数/分组内总行数
–比如,统计小于等于当前薪水的人数,所占总人数的比例
  1.     SELECT
  2.     dept,
  3.     userid,
  4.     sal,
  5.     CUME_DIST() OVER(ORDER BY sal) AS rn1,
  6.     CUME_DIST() OVER(PARTITION BY dept ORDER BY sal) AS rn2
  7.     FROM lxw1234;
  8.      
  9.     dept userid sal rn1 rn2
  10.     -------------------------------------------
  11.     d1 user1 1000 0.2 0.3333333333333333
  12.     d1 user2 2000 0.4 0.6666666666666666
  13.     d1 user3 3000 0.6 1.0
  14.     d2 user4 4000 0.8 0.5
  15.     d2 user5 5000 1.0 1.0
  16.      
  17.     rn1: 没有partition,所有数据均为1组,总行数为5,
  18.     第一行:小于等于1000的行数为1,因此,1/5=0.2
  19.     第三行:小于等于3000的行数为3,因此,3/5=0.6
  20.     rn2: 按照部门分组,dpet=d1的行数为3,
  21.     第二行:小于等于2000的行数为2,因此,2/3=0.6666666666666666
复制代码
PERCENT_RANK–PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1
应用场景不了解,可能在一些特殊算法的实现中可以用到吧。
  1.     SELECT
  2.     dept,
  3.     userid,
  4.     sal,
  5.     PERCENT_RANK() OVER(ORDER BY sal) AS rn1, --分组内
  6.     RANK() OVER(ORDER BY sal) AS rn11, --分组内RANK值
  7.     SUM(1) OVER(PARTITION BY NULL) AS rn12, --分组内总行数
  8.     PERCENT_RANK() OVER(PARTITION BY dept ORDER BY sal) AS rn2
  9.     FROM lxw1234;
  10.      
  11.     dept userid sal rn1 rn11 rn12 rn2
  12.     ---------------------------------------------------
  13.     d1 user1 1000 0.0 1 5 0.0
  14.     d1 user2 2000 0.25 2 5 0.5
  15.     d1 user3 3000 0.5 3 5 1.0
  16.     d2 user4 4000 0.75 4 5 0.0
  17.     d2 user5 5000 1.0 5 5 1.0
  18.      
  19.     rn1: rn1 = (rn11-1) / (rn12-1)
  20.     第一行,(1-1)/(5-1)=0/4=0
  21.     第二行,(2-1)/(5-1)=1/4=0.25
  22.     第四行,(4-1)/(5-1)=3/4=0.75
  23.     rn2: 按照dept分组,
  24.     dept=d1的总行数为3
  25.     第一行,(1-1)/(3-1)=0
  26.     第三行,(3-1)/(3-1)=1
复制代码


资料来源:http://029bigdata.com/?p=185

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条