About云-梭伦科技»专题 › 交流区 › 技术交流 › Hive › hive表有一千万条数据，查询根本没反应

hive表有一千万条数据，查询根本没反应

查看数: 126848 | 评论数: 12 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

mjjian0

发布时间: 2015-4-2 10:46

正文摘要:

storm到hive demo做完了，但是需要查询的时候一直没有反应，如果说是集群有其他任务占用着资源，但是我用hadoop job -list看了没有其他的只有这一个任务

awenkidz 发表于 2015-4-13 13:21:01

我觉得是系统性能问题。

mjjian0 发表于 2015-4-2 14:27:08

本帖最后由 pig2 于 2015-4-2 18:55 编辑

langke93 发表于 2015-4-2 13:51
那就是内存不够了

hive查询好像还很慢，3钱多条数据
用：select distinct trace_id from tb_watchmen;
能用338.991 seconds才能出结果。

mjjian0 发表于 2015-4-2 14:02:34

langke93 发表于 2015-4-2 13:51
那就是内存不够了

我的linux是 4g内存怎么会内存不够呢

点评

langke93

可以多次试试，看看内存的情况发表于 2015-4-2 14:05

langke93 发表于 2015-4-2 13:51:49

mjjian0 发表于 2015-4-2 13:45
我把RM节点移到namenode节点上，再启动就好了。是rm，nm没有启动起来或是后来挂掉了，因为我在stop-all.SH ...

那就是内存不够了

mjjian0 发表于 2015-4-2 13:45:40

我把RM节点移到namenode节点上，再启动就好了。是rm，nm没有启动起来或是后来挂掉了，因为我在stop-all.SH的时候，提示说没有nm，rm进程。

langke93 发表于 2015-4-2 13:16:06

mjjian0 发表于 2015-4-2 12:51
我重新见了张表，在这张表里存了 60条数据，用那条语句查，也是卡在那不动了。

hive适合统计，查询可以使用hbase,各有各的用处。如果想hive更快一些，还可以对他们建立索引
详细参考
Hive如何创建索引

mjjian0 发表于 2015-4-2 12:51:33

desehawk 发表于 2015-4-2 11:08
Order by 实现全局排序，一个reduce实现，效率低
Sort by 实现部分有序，单个reduce输出的结果是有序的， ...

我重新见了张表，在这张表里存了 60条数据，用那条语句查，也是卡在那不动了。

mjjian0 发表于 2015-4-2 12:50:59

langke93 发表于 2015-4-2 12:24
这里面还是比较复杂的
取决于存储是否有小文件，还有map和reduce的个数设置等

我重新见了张表，在这张表里存了 60条数据，用那条语句查，也是很慢的

langke93 发表于 2015-4-2 12:24:23

这里面还是比较复杂的
取决于存储是否有小文件，还有map和reduce的个数设置等

map个数控制可以通过下面方式控制：

 set mapred.max.split.size=100000000;
                    set mapred.min.split.size.per.node=100000000;
                    set mapred.min.split.size.per.rack=100000000;
                    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
复制代码

reduce个数控制
1. 调整reduce个数方法一：
调整hive.exec.reducers.bytes.per.reducer参数的值；
set hive.exec.reducers.bytes.per.reducer=500000000; （500M）
select pt,count(1) from popt_tbaccountcopy_mes where pt = '2012-07-04' group by pt; 这次有20个reduce

2. 调整reduce个数方法二；
set mapred.reduce.tasks = 15;
select pt,count(1) from popt_tbaccountcopy_mes where pt = '2012-07-04' group by pt;这次有15个reduce

图文精华

hive表有一千万条数据，查询根本没反应

正文摘要:

回复

点评

推荐 /2