youngwenhao 发表于 2017-5-24 11:52 很多都是需要大数据才能体现出来。 比如mapreduce的wordcount,一个很小的文件,传统程序肯定比mapreduce快。 |
youngwenhao 发表于 2017-5-23 14:51 这个还算可以。 如果还想增大的话,master可以增大到10G。另外内存跟运行没有直接关系。跟jvm的配置等关系比较大。 |
youngwenhao 发表于 2017-5-23 09:47 运行前直接设置下即可 set spark.sql.codegen=true; conf/spark-default.conf 可以配置 spark.sql.shuffle.partitions=200 |
spark对内存要求较高,是不是spark资源不够或者配置不够优化 |
youngwenhao 发表于 2017-5-22 16:11 首先二者使用的背景有所不同的。 hive是sql on hdfs,目的为了hadoop的数据更好的查询。 spark sql是因为mr慢,所以使用了spark sql。 可以优化下spark,比如下面 设置并行度 spark.sql.shuffle.partitions=200 spark.sql.codegen设置为Ture; |
请问是不是数据量还不够大,是不是我多个类似的表格联合查询速度就会提升? 烦请指导下。 |