SparkSql交互性查询的耗时问题。

查看数: 10826 | 评论数: 9 | 收藏 1
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2017-5-22 16:07

正文摘要:

在安装了Spark集群后,测试单个大小为1G多的csv文件。 我先将该问题导入hive测试了下,hive的排序时间,和查询时间 然后用spark测试排序时间和查询时间 表名:kt_bigdata(行数3749176) HIVE和spark测试时间如 ...

回复

einhep 发表于 2017-5-24 18:44:58
youngwenhao 发表于 2017-5-24 11:52
你好,请问这个370w行的数据表,我mysql中的测试排序和查询速度竟然都比较hive和sparksql快,是由于数据 ...

很多都是需要大数据才能体现出来。
比如mapreduce的wordcount,一个很小的文件,传统程序肯定比mapreduce快。
starrycheng 发表于 2017-5-23 20:06:52
youngwenhao 发表于 2017-5-23 14:51
麻烦review下我的配置,我master的role比较多,还请帮忙提下建议,我用的4台pc机,一般spark集群需要多大 ...

这个还算可以。
如果还想增大的话,master可以增大到10G。另外内存跟运行没有直接关系。跟jvm的配置等关系比较大。
qcbb001 发表于 2017-5-23 11:47:15
youngwenhao 发表于 2017-5-23 09:47
你好,谢谢你的回复,我用CDH安装的spark但是在spark的configuration中为什么找不到这两项配置,
我是否 ...

运行前直接设置下即可
set spark.sql.codegen=true;
conf/spark-default.conf
可以配置
spark.sql.shuffle.partitions=200

fly2015 发表于 2017-5-23 11:35:14
spark对内存要求较高,是不是spark资源不够或者配置不够优化
desehawk 发表于 2017-5-22 17:14:58
youngwenhao 发表于 2017-5-22 16:11
请问是不是数据量还不够大,是不是我多个类似的表格联合查询速度就会提升?
烦请指导下。

首先二者使用的背景有所不同的。
hive是sql on hdfs,目的为了hadoop的数据更好的查询。
spark sql是因为mr慢,所以使用了spark sql。
可以优化下spark,比如下面
设置并行度
spark.sql.shuffle.partitions=200
spark.sql.codegen设置为Ture;

youngwenhao 发表于 2017-5-22 16:11:39
请问是不是数据量还不够大,是不是我多个类似的表格联合查询速度就会提升?
烦请指导下。
关闭

推荐上一条 /2 下一条