分享

hive该如何应对上亿的数据记录

leletuo2012 发表于 2016-4-5 11:37:31 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 11844
  现在有个表 其中单分区记录就达到50亿左右(一天的数据量),对该表进行简单的pv统计操作,发现集群的datanode会出现挂掉的情况(集群有5个datanode,最严重一次时全部挂掉了),该如何应对这种情况呢

已有(3)人评论

跳转到指定楼层
Alkaloid0515 发表于 2016-4-5 11:52:08
先分析下原因是什么?
先看看日志为什么会挂掉,然后对症下药。
比如内存不够了,或则集群调优下等。然后在想想改如何解决
回复

使用道具 举报

jhon 发表于 2016-4-6 22:59:52
同上,是磁盘空间不够?楼主找到原因了吗?能总结一下出吗?
回复

使用道具 举报

leletuo2012 发表于 2016-4-6 23:03:36
感觉不是,因为我只要把该任务干掉后不久,所有节点能自动恢复正常,目前原因仍在排查
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条