About云-梭伦科技»专题 › 技术学习(版主发帖区) › 大数据学习 › Cloudera系列 › CDH5.4下安装部署Spark1.4.1下SparkR

CDH5.4下安装部署Spark1.4.1下SparkR

查看数: 60359 | 评论数: 3 | 收藏 1

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

hyj

发布时间: 2015-8-29 22:17

正文摘要:

问题导读 1.部署Spark1.4.1下SparkR包含哪些步骤？ 2.如何运行运行sparkR？ [Author]: kwu (和讯大数据) 基本CDH5.4的Spark1.4.1下SparkR的部署，R与Spark的结合为数据分析提供高效的解决方案，Ha ...

oufuji 发表于 2015-12-16 09:02:20

arthurcloud 发表于 2015-9-1 14:49
请问高人，有成功过 hive on spark 么？就是设置 hive 的引擎为 spark，hive 目前支持 mr，tez，spark ...

他这个CDH5.4只安装了部分组件，然后独立起spark集群，并不是直接用CDH带的spark，因为最高的CDH5.4.8也还是spark1.3.0,CDH5.5才升级到

spark1.5.0，并且是阉割版（spark-sql和sparkR执行文件都删了，spark文件夹下也没有R的包）。

其实没必要这样玩。

我的做法很简单：CDH装HDFS,YARN,Hive,(Impala也装上，为了跟spark-sql比较，平时关着需要再启动)。
然后在其中一个节点下载最新版的spark1.5.2，解压，然后把hdfs下的hdfs-site,yarn-site之类的xml和hive的配置（默认

是/etc/hadoop/conf;/etc/hive/conf等文件夹）拷贝到spark的conf文件夹下。
最好还要配置一下环境变量。PATH之类的。
vi /etc/profile
source /etc/profile

export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export HADOOP_CONF_DIR=/etc/hadoop/conf
export HADOOP_CMD=/opt/cloudera/parcels/CDH/bin/hadoop
export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hive
export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin:$SCALA_HOME/bin

然后就在spark的bin文件下启动sparkR或者spark-sql即可。

--另外他这个sparkR，注意编译R包的时候，加上R共享库：
./configure --enable-R-shlib

否则无法安装RStudio。

arthurcloud 发表于 2015-9-1 14:49:23

请问高人，有成功过 hive on spark 么？就是设置 hive 的引擎为 spark，hive 目前支持 mr，tez，spark，小弟想试试 hive on spark，但未能在CDH版本下获得成功，请问高人，这个如何配置？

小南3707 发表于 2015-8-31 17:39:51

赞！

图文精华

CDH5.4下安装部署Spark1.4.1下SparkR

正文摘要:

回复

推荐 /2