hive该如何应对上亿的数据记录

现在有个表其中单分区记录就达到50亿左右（一天的数据量），对该表进行简单的pv统计操作，发现集群的datanode会出现挂掉的情况（集群有5个datanode,最严重一次时全部挂掉了），该如何应对这种情况呢

Alkaloid0515 · 发表于 2016-4-5 11:52:08

先分析下原因是什么？
先看看日志为什么会挂掉，然后对症下药。
比如内存不够了，或则集群调优下等。然后在想想改如何解决

jhon · 发表于 2016-4-6 22:59:52

同上，是磁盘空间不够？楼主找到原因了吗？能总结一下出吗？

leletuo2012 · 发表于 2016-4-6 23:03:36

感觉不是，因为我只要把该任务干掉后不久，所有节点能自动恢复正常，目前原因仍在排查

图文精华