图文精华

hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...

About云»专题 › 交流区 › 技术交流 › Hive › 简单的sql,group by 的结果不是想的那样啊

0
6
0

分享

简单的sql,group by 的结果不是想的那样啊

wangzhenqiang 发表于 2015-8-17 19:07:43 [显示全部楼层] 回帖奖励

回帖奖励

阅读模式关闭右栏 6 14711

select  uid,state,sum(quantity)  pro_quantity,count(distinct order_id) order_cnt from  sta_order where uid ='32939970140' group by uid,state
这条SQL执行结果是:
32939970140    NO_PENDING_ACTION    14    13
32939970140    REMOVED                         35    3
然后再把上面SQL作为一个结果集，在之上求MAX
select
  T.uid
  ,max(T.pro_quantity)  max_prod_cnt
from
(
select  uid,state,sum(quantity)  pro_quantity,count(distinct order_id) order_cnt from  sta_order where uid ='32939970140' group by uid,state
) T
group by T.uid结果是:
32939970140    14
32939970140    35
为什么不是
32939970140    35

我在设置set mapred.reduce.tasks=1;，再执行，就得到想要得结果,数据量大的话，我不可能用一个reduce吧，为什么，求解,高手帮个忙

回复

使用道具举报

自定义广告语

已有(6)人评论

电梯直达

跳转到指定楼层

正序浏览

xuanxufeng 发表于 2015-8-18 03:56:40

本帖最后由 xuanxufeng 于 2015-8-18 03:58 编辑

跟group by T.uid有区别，说明他们两个不是一组，如果在同一组就会取出最大的了

回复

使用道具举报

evababy 发表于 2015-8-18 09:31:23

不符合SQL标准，使用MAX时候无法获取 T.uid的，HIVE能执行出结果只能说……好强大，建议用标准SQL执行后比较分析

回复

使用道具举报

wangzhenqiang 发表于 2015-8-18 09:52:37

xuanxufeng 发表于 2015-8-18 03:56
跟group by T.uid有区别，说明他们两个不是一组，如果在同一组就会取出最大的了

不明白呀，不是都是同一个key吗

回复

使用道具举报

wangzhenqiang 发表于 2015-8-18 11:38:05

本帖最后由 wangzhenqiang 于 2015-8-18 12:03 编辑

设置参数set hive.groupby.skewindata=true 就可以了,但是速度慢了许多，简直疯了

回复

使用道具举报

desehawk 发表于 2015-8-18 14:53:54

wangzhenqiang 发表于 2015-8-18 11:38
设置参数set hive.groupby.skewindata=true 就可以了,但是速度慢了许多，简直疯了

应该是数据倾斜造成的

回复

使用道具举报

wangzhenqiang 发表于 2015-8-18 16:10:45

desehawk 发表于 2015-8-18 14:53
应该是数据倾斜造成的

上面的子查询查出的就2行数据，不可能倾斜吧

回复

使用道具举报

发表新帖

wangzhenqiang

中级会员

关注

5

主题
95

帖子
3

粉丝

TA的主题

24小时热文

推荐 /2

关于我们· 联系我们· 加入我们· 小黑屋· 合作伙伴

Copyright © 2001-2025 About云 Powered by Discuz! X3.4 Licensed Discuz Team.

简书 / 京ICP备2020039040号简书网举报电话：021-34700000

意见
反馈