分享

Apache Spark技术实战之4 -- SparkR的安装及使用

jixianqiuxue 2014-11-18 01:36:43 发表于 连载型 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 24072
问题导读

1.安装SparkR,需要哪些步骤?
2.如何使用SparkR来运行wordcount?




               
         
概要
根据论坛上的信息,在Sparkrelease计划中,在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR.
SparkR的出现解决了R语言中无法级联扩展的难题,同时也极大的丰富了Spark在机器学习方面能够使用的Lib库。SparkR和Spark MLLIB将共同构建出Spark在机器学习方面的优势地位。
使用SparkR能让用户同时使用Spark RDD提供的丰富Api,也可以调用R语言中丰富的Lib库。
安装SparkR
先决条件
已经安装好openjdk 7安装好了R

安装步骤:
步骤1: 运行R Shell
bash# R
步骤2:在R shell中安装rJava
install.packages("rJava")
步骤3: 在R shell中安装devtools
install.packages("devtools")
步骤4: 安装好rJava及devtools,接下来安装SparkR
library(devtools)
install_github("amplab-extras/SparkR-pkg", subdir="pkg")
使用SparkR来运行wordcount
安装完SparkR之后,可以用wordcount来检验安装正确与否。
步骤1:在R shell中加载SparkR
library(SparkR)
步骤2:初始化SparkContext及执行wordcount
sc
如果想将SparkR运行于集群环境中,只需要将master=local,换成spark集群的监听地址即可


小结
时间匆忙,还有两件事情没有来得及细细分析。
SparkR的代码实现如果很好的将R中支持的数据挖掘算法与Spark并行化处理能力很好的结合

参考资料
https://github.com/amplab-extras/SparkR-pkg

相关文章

Spark技术实战之1 -- KafkaWordCount
http://www.aboutyun.com/thread-9580-1-1.html

Spark技术实战之2 -- Spark Cassandra Connector的安装和使用
http://www.aboutyun.com/thread-9582-1-1.html


Spark技术实战之3 -- 利用Spark将json文件导入Cassandra
http://www.aboutyun.com/thread-9583-1-1.html



Apache Spark技术实战之5 -- spark-submit常见问题及其解决
http://www.aboutyun.com/thread-10083-1-1.html

Apache Spark技术实战之6 -- CassandraRDD高并发数据读取实现剖析
http://www.aboutyun.com/thread-10084-1-1.html












注明出处,徽沪一郎

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条