arthurcloud 发表于 2015-9-1 14:49 他这个CDH5.4只安装了部分组件,然后独立起spark集群,并不是直接用CDH带的spark,因为最高的CDH5.4.8也还是spark1.3.0,CDH5.5才升级到 spark1.5.0,并且是阉割版(spark-sql和sparkR执行文件都删了,spark文件夹下也没有R的包)。 其实没必要这样玩。 我的做法很简单:CDH装HDFS,YARN,Hive,(Impala也装上,为了跟spark-sql比较,平时关着需要再启动)。 然后在其中一个节点下载最新版的spark1.5.2,解压,然后把hdfs下的hdfs-site,yarn-site之类的xml和hive的配置(默认 是/etc/hadoop/conf;/etc/hive/conf等文件夹)拷贝到spark的conf文件夹下。 最好还要配置一下环境变量。PATH之类的。 vi /etc/profile source /etc/profile export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop export HADOOP_CONF_DIR=/etc/hadoop/conf export HADOOP_CMD=/opt/cloudera/parcels/CDH/bin/hadoop export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hive export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin:$SCALA_HOME/bin 然后就在spark的bin文件下启动sparkR或者spark-sql即可。 --另外他这个sparkR,注意编译R包的时候,加上R共享库: ./configure --enable-R-shlib 否则无法安装RStudio。 |
请问高人,有成功过 hive on spark 么? 就是 设置 hive 的 引擎 为 spark,hive 目前支持 mr,tez,spark,小弟想试试 hive on spark,但未能在CDH版本下获得成功,请问高人,这个如何配置? |
赞! |