Spark3.0之IDEA编译Spark源码及流程启动

本帖最后由 hanyunsong 于 2020-7-31 15:09 编辑

问题导读：

1. 如何下载Spark3.0源码？
2. 如何配置pom.xml？
3. 如何用IDEA编译Spark3.0源码？
4. 在Spark的standalone 模式中Master是如何启动？
5. 在Master启动后又做了哪些操作？

阅读源码的第一步是下载Spark源码，并导入到工具中阅读。

下载

1. 进入http://spark.apache.org/downloads.html页面，点击

批注 2020-07-31 113213.png

注：点击图片放大即可清晰查阅

箭头连接即可下载Spark3.0源码。
2. 安装Maven，需要安装Maven 3.6以上的版本。
3. 安装Scala2.12.10+，Spark3.0需要使用2.12.10以上的版本。

调整pom.xml

1. 修改根目录下的pom.xml文件，将googleapis仓库给注释掉

批注 2020-07-31 114906.png

注：点击图片放大即可清晰查阅

批注 2020-07-31 115039.png

注：点击图片放大即可清晰查阅

如果是在windows下，需要将spark-core项目的pom.xml文件中的antrun-plugin插件修改下，如下图

批注 2020-07-31 141502.png

注：点击图片放大即可清晰查阅

将bash修改成cmd。

编译

可以直接导入到IDEA中进行编译，也可以直接在控制台进行编译，如控制台：

进入spark界面的跟目录
执行maven编译命令mvn compile/package；如果需要跳过测试，使用命令：mvn compile/package -Dmaven.test.skip=true
经过漫长地等待（取决于网络），Spark将编译完成。

Master启动流程

从Spark2.0开始就以及删除了akka的相关通信代码，所以3.0的rpc通讯采用的还是2.0之后的Netty来作为底层通讯框架；SparkMaster的启动类（org.apache.spark.deploy.master.Master.scala），在这个class中的main函数是启动Master的开始，我们就从这里开始。
主要启动流程如下：

设置多线程的异常处理器
获取和解析SparkMaster参数信息
启动RpcEnv
注册Endpoint
等待Master优雅关闭

1. 设置多线程的异常处理器

因在多线程中其异常无法准备获取，需要进行设置线程的异常处理器来进行处理.

批注 2020-07-31 1417315.png

注：点击图片放大即可清晰查阅

2. 获取和解析SparkMaster的参数信息

批注 2020-07-31 141920.png

注：点击图片放大即可清晰查阅

在SparkConf中主要从系统的环境变量中加载因spark开头的环境变量参数

批注 2020-07-31 142142.png

注：点击图片放大即可清晰查阅

解析的参数信息会存放在settings中。
而MasterArguments主要是用来解析Master启动时通过args传递的参数，以及Spark配置文件中的信息（默认为SPARK_HOME/conf/spark-default.conf文件）:

批注 2020-07-31 142228.png

注：点击图片放大即可清晰查阅

3. 启动RpcEnv

在Master的main中会调用startRpcEnvAndEndpoint，这个函数来负责启动Rpc并注册Endpoint(Master)

批注 2020-07-31 142250.png

注：点击图片放大即可清晰查阅

其中SecurityManager主要是SparkConf中获取是否启用了安全和权限信息等。

批注 2020-07-31 142407.png

注：点击图片放大即可清晰查阅

主要创建RpcEnv的是采用抽象工厂模式来创建NettyRpcEnv的(之前还有akka，现在只剩下netty了)。
接下来看看NetyRpcEnv是如何创建的RpcEnv的

批注 2020-07-31 142434.png

注：点击图片放大即可清晰查阅

1、先new出NettyRpcEnv实例，在NettyRpcEnv进行构造函数初始化时，会初始化一些主要的类，如Dispatcher、TransportContext、NettyRpcHandler，以及outbox。
2、判断是否是客户端模式，非客户端模式需要启动服务器，主要用TransportContext来创建服务器

批注 2020-07-31 142456.png

注：点击图片放大即可清晰查阅

在创建服务器完成后，会注册一个验证的Endpoint(RpcEndpointVerifier)，后面会用这个Endpoint来验证给定的EndpointName是否存在之类的操作。
在启动服务器时如果端口被占用，会按照算法进行算出下一个端口，如果是测试模式，最大重试100次，非测试模式，最大重试16次，如果重试次数结束都无法创建服务器，则报错，启动Master失败。

4.注册Endpoint(Master)

注册Endpoint主要使用RpcEnv#setupEndpoint方法来完成注册，这个方法内部又调用了Dispatcher的registerRpcEndpoint来进行记录Endpoint。当注册完成后会返回一个EndpointRef，后面可以用这个Ref来向Endpoint发送rpc请求。

批注 2020-07-31 142517.png

注：点击图片放大即可清晰查阅

接下来开始构造Master，当构造完成后会调用OnStart方法(在创建Dispatcher时，Dispatcher会初始化ShareMessageLoop，当注册Endpoint时会用到MessageLoop#register函数，这个函数会对每个注册的Endpoint都创建一个InBox，且在new InBox时，会向里面放OnStart消息作为Endpoint的InBox的第一个消息)
在onStart方法中，主要启动web ui和rest server以及一些指标系统；和leader选举等。

批注 2020-07-31 142540.png

注：点击图片放大即可清晰查阅

批注 2020-07-31 142557.png

注：点击图片放大即可清晰查阅

当master服务器启动后，会使用EndpointRef向Master发送BoundPortsResponse消息来获取Master启动的web ui端口和rest端口。
到此Master启动完成，awaitTermination等待Master关闭，这个是使用CountDownLatch来实现的。

后面就等待Worker来连接、Driver来提交作业。

加微信w3aboutyun，获取更多资源

领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480

大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235

名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732

文件来源1：https://www.jianshu.com/p/1c1f63be8042
文章来源2：https://www.jianshu.com/p/2cb374bab61b

图文精华

Spark3.0之IDEA编译Spark源码及流程启动

推荐 /2