分享

Spark入门一:Spark1.2伪分布式安装


问题导读


1.spark安装需要哪些环境?
2.如何配置spark?
3.如何启动spark?








Spark1.2.0伪分布式安装
  • JDK1.7.0_67
  • Haddoop2.5.2(伪分布式安装)
  • Scala2.11.4
  • Spark1.2.0(伪分布式安装)

下载并配置Scala1. 下载Scala2.11.4

  1. wget http://downloads.typesafe.com/scala/2.11.4/scala-2.11.4.tgz?_ga=1.10268349.906591.1419820693
复制代码
2. 改名
  1. mv scala-2.11.4.tgz?_ga=1.10268349.906591.1419820693 scala-2.11.4.tgz
复制代码

3. 配置Scala的环境变量
  1. vim /etc/profile
  2. export SCALA_HOME=/home/hadoop/software/scala-2.11.4
  3. export PATH=$SCALA_HOME/bin:$PATH
复制代码


下载Spark1.2.0(与Hadoop2.4兼容版本)
1.下载Spark1.2.0与Hadoop2.4兼容版本
  1. http://d3kbcqa49mib13.cloudfront.net/spark-1.2.0-bin-hadoop2.4.tgz
复制代码

在本测试环境中,使用的是Hadoop2.5.2版本,测试发现,这个版本的Spark(2.4兼容版本)可以与Hadoop2.5.2兼容

2. 解压Spark安装包到如下目录

  1. tar xzvf spark-1.2.0-bin-hadoop2.4.tgz
  2. /home/hadoop/software/spark-1.2.0-bin-hadoop2.4
复制代码
配置Spark相关的环境变量1. vim /etc/profile,编辑完成后使用source /etc/profile使得变量生效
  1. export SPARK_HOME=/home/hadoop/software/spark-1.2.0-bin-hadoop2.4
  2. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  3. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
复制代码

这些需要配置的环境变量很多,不过之前在安装JDK,Scala和Hadoop时,已经设置过了,具体需要配置哪些环境,可以看配置spark-env.sh的配置。为了保险期间,可以设置如下的环境变量(在/etc/profile和spark-env.sh同时配置)
  • SCALA_HOME
  • JAVA_HOME
  • HADOOP_HOME
  • SPARK_HOME
  • YARN_CONF_DIR
2. 把spark-env.sh.template改为spark-env.sh

  1. cp spark-env.sh.template spark-env.sh
复制代码

3. 配置spark-env.sh

  1. export SCALA_HOME=/home/hadoop/software/scala-2.11.4
  2. export JAVA_HOME=/home/hadoop/software/jdk1.7.0_67
  3. export SPARK_MASTER=localhost
  4. export SPARK_LOCAL_IP=localhost
  5. export HADOOP_HOME=/home/hadoop/software/hadoop-2.5.2
  6. export SPARK_HOME=/home/hadoop/software/spark-1.2.0-bin-hadoop2.4
  7. export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
  8. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
复制代码


启动Spark
1. 在Spark安装目录的sbin目录下执行./start-all.sh命令启动Spark

  1. $SPARK_HOME/sbin/start-all.sh
复制代码

2. 启动过程中报rsync错误,不过通过查看Java进程可以看到Spark已经启动


1.png

可见,启动Spark后,启动了两个Java进程Master和Worker

3. 访问http://localhost:8080,可以看到Spark Master的状态

2.png

4. 访问如下地址可以查看关于Spark相关的情况
  • http://192.168.26.135:4040/jobs
  • http://192.168.26.135:4040/stages/
  • http://192.168.26.135:4040/storage/
  • http://192.168.26.135:4040/environment/ (包含Spark Shell的类路径)

3.png
由下图可见,Spark Shell启动后,只有一个Executor,即driver

4.png



Spark Shell运行Word Count
1. 启动Spark Shell
  1. bin/spark-shell
复制代码

第一次启动过程中用了4分钟,并且系统卡住没反应,不过以后再启动Spark Shell则很快,快则1,2秒,慢则10几秒。Spark Shell启动后,Spark启动了一个进程SparkSubmit


5.png
6.png



2. 运行Spark Word Count

2.1 Spark Shell启动后,进行入scala命令行模式,此时,Spark已经默认给我们创建了一个SparkContext,sc,如:

  1. scala> sc
  2. res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@756cf002
复制代码

2.2. 在Hadoop HDFS上创建一个文本文件,如:
  1. hdfs dfs -cat /users/hadoop/wordcount/word.txt
复制代码

内容是:
  
7.png


2.3 Spark读取HDFS上的文本文件word.txt

  1. val file = sc.textFile("hdfs://hadoop.master:9000/users/hadoop/wordcount/word.txt")
复制代码

这行语句的结果是创建了一个MappedRDD,即file的类型是MappedRDD,执行结果如下所示:

8.png

最后的<Console>:12,12指的是什么?不像是word.txt的字节数

2.3.0 题外话:
hdfs://hadoop.master:9000,这里的hadoop.master不能是localhost,因为telnet localhost 9000拒绝连接,如下图所示:

9.png



2.4. 执行如下操作
  1. scala>  val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)  
复制代码
结果:

10.png

可见count是ShuffledRDD类型

2.5 统计结果

  1. scala> count.collect()
复制代码
11.png

查看Spark Master和Spark Worker的运行结果
通过访问http://192.168.26.135:8080/http://192.168.26.135:8081/,可以查看Spark Master和Spark Worker的运行状态。结果发现,Master上Completed Applications依然为0,原因不清楚, Spark Master UI不显示Spark Shell提交的任务?








没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条