hive数据倾斜原因分析及解决方案

提示: 作者被禁止或删除内容自动屏蔽

sunny62520 · 发表于 2014-7-1 23:54:53

MARK，这个有用~

EASONLIU · 发表于 2015-1-28 16:48:20

没完全看懂，有点深。。。

greenclould · 发表于 2015-9-16 17:17:15

为梦狂野 · 发表于 2016-1-9 17:27:54

谢谢，非常受用，我准备分享给我的同事，这样线上的hive查询就不会那么卡了

为梦狂野 · 发表于 2016-1-10 16:18:05

您好！请问3.3map join 用法能够再讲解细致些吗？我觉得写的可能有问题，
select * from log a  left outer join users b  on a.user_id = b.user_id;这表达找出log表中用户关联其中用户的其他信息。
select *
from  log a  left outer join
  ( select
   d.*
   from
      (select distinct user_id from log ) c
left outer join users d  on c.user_id = d.user_id
  ) x  on a.user_id = b.user_id;
-- x 标识找出log表中所有的user关联用户信息表，做成一张临时的log用户信息表
两种方式，第二种处理了下右表，将右表变小了，但是处理右表也是要挺多时间的，很难知道是否优化了
能否请博主细细讲解下。谢谢博主了

zhanjh · 发表于 2016-1-12 16:31:19

看过hive的相关资料后，再看文章，感觉好多了

图文精华

hive数据倾斜原因分析及解决方案

已有(6)人评论

推荐 /2