分享

hive 查看数据是不是连续重复的数据

现在有个需求如下
time                        money
2016-10-17 00:00:00          15
2016-10-17 00:15:00          20
2016-10-17 00:30:00          35
2016-10-17 00:45:00          35
2016-10-17 01:00:00          35
2016-10-17 01:15:00          35
2016-10-17 01:30:00          35
2016-10-17 01:45:00          20
2016-10-17 02:00:00          15
2016-10-17 02:15:00          15
2016-10-17 02:30:00          15
2016-10-17 02:45:00          15
2016-10-17 03:00:00          15
2016-10-17 03:15:00          15

2016-10-17 03:45:00          19
需求:使用hive 过滤掉连续重复超过5次的数据
现在发现是35 连续重复了5次  ,15 连续重复6次  怎么样做才能过滤掉这些不合格的数据了

已有(6)人评论

跳转到指定楼层
请叫我野区养猪 发表于 2016-10-20 11:45:01
求各位大神帮忙
回复

使用道具 举报

einhep 发表于 2016-10-20 13:53:47

过滤掉是啥意思?查询的时候不显示?还是删除掉
回复

使用道具 举报

请叫我野区养猪 发表于 2016-10-20 13:55:49
einhep 发表于 2016-10-20 13:53
过滤掉是啥意思?查询的时候不显示?还是删除掉

删除掉 或者不显示都行
回复

使用道具 举报

einhep 发表于 2016-10-20 14:05:29

总体思路来讲,可以通过hive sql的存储过程来实现。

通过游标,上一条和下一条不断对比,如果相同则是连续重复,然后处理
回复

使用道具 举报

请叫我野区养猪 发表于 2016-10-20 14:15:33
einhep 发表于 2016-10-20 14:05
总体思路来讲,可以通过hive sql的存储过程来实现。

通过游标,上一条和下一条不断对比,如果相同则是 ...

hive sql 2.0才有存储过程 现在使用版本是1.*
回复

使用道具 举报

einhep 发表于 2016-10-20 14:17:49
请叫我野区养猪 发表于 2016-10-20 14:15
hive sql 2.0才有存储过程 现在使用版本是1.*

那这个就难实现了,不行使用mapreduce吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条