hanyunsong 发表于 2020-7-30 18:33:56

Spark3.0之IDEA编译Spark源码及流程启动

本帖最后由 hanyunsong 于 2020-7-31 15:09 编辑

问题导读:

1. 如何下载Spark3.0源码?
2. 如何配置pom.xml?
3. 如何用IDEA编译Spark3.0源码?
4. 在Spark的standalone 模式中Master是如何启动?
5. 在Master启动后又做了哪些操作?



阅读源码的第一步是下载Spark源码,并导入到工具中阅读。

下载

1. 进入http://spark.apache.org/downloads.html页面,点击


注:点击图片放大即可清晰查阅

    箭头连接即可下载Spark3.0源码。
2. 安装Maven,需要安装Maven 3.6以上的版本。
3. 安装Scala2.12.10+,Spark3.0需要使用2.12.10以上的版本。

调整pom.xml

1. 修改根目录下的pom.xml文件,将googleapis仓库给注释掉


注:点击图片放大即可清晰查阅


注:点击图片放大即可清晰查阅

如果是在windows下,需要将spark-core项目的pom.xml文件中的antrun-plugin插件修改下,如下图



注:点击图片放大即可清晰查阅

将bash修改成cmd。

编译

可以直接导入到IDEA中进行编译,也可以直接在控制台进行编译,如控制台:


[*]进入spark界面的跟目录
[*]执行maven编译命令mvn compile/package;如果需要跳过测试,使用命令:mvn compile/package -Dmaven.test.skip=true
[*]经过漫长地等待(取决于网络),Spark将编译完成。

Master启动流程

从Spark2.0开始就以及删除了akka的相关通信代码,所以3.0的rpc通讯采用的还是2.0之后的Netty来作为底层通讯框架;SparkMaster的启动类(org.apache.spark.deploy.master.Master.scala),在这个class中的main函数是启动Master的开始,我们就从这里开始。
主要启动流程如下:


[*]设置多线程的异常处理器
[*]获取和解析SparkMaster参数信息
[*]启动RpcEnv
[*]注册Endpoint
[*]等待Master优雅关闭

1. 设置多线程的异常处理器

因在多线程中其异常无法准备获取,需要进行设置线程的异常处理器来进行处理.


注:点击图片放大即可清晰查阅

2. 获取和解析SparkMaster的参数信息


注:点击图片放大即可清晰查阅

在SparkConf中主要从系统的环境变量中加载因spark开头的环境变量参数


注:点击图片放大即可清晰查阅

解析的参数信息会存放在settings中。
而MasterArguments主要是用来解析Master启动时通过args传递的参数,以及Spark配置文件中的信息(默认为SPARK_HOME/conf/spark-default.conf文件):


注:点击图片放大即可清晰查阅

3. 启动RpcEnv

在Master的main中会调用startRpcEnvAndEndpoint,这个函数来负责启动Rpc并注册Endpoint(Master)


注:点击图片放大即可清晰查阅

其中SecurityManager主要是SparkConf中获取是否启用了安全和权限信息等。


注:点击图片放大即可清晰查阅

主要创建RpcEnv的是采用抽象工厂模式来创建NettyRpcEnv的(之前还有akka,现在只剩下netty了)。
接下来看看NetyRpcEnv是如何创建的RpcEnv的


注:点击图片放大即可清晰查阅

1、先new出NettyRpcEnv实例,在NettyRpcEnv进行构造函数初始化时,会初始化一些主要的类,如Dispatcher、TransportContext、NettyRpcHandler,以及outbox。
2、判断是否是客户端模式,非客户端模式需要启动服务器,主要用TransportContext来创建服务器


注:点击图片放大即可清晰查阅

在创建服务器完成后,会注册一个验证的Endpoint(RpcEndpointVerifier),后面会用这个Endpoint来验证给定的EndpointName是否存在之类的操作。
在启动服务器时如果端口被占用,会按照算法进行算出下一个端口,如果是测试模式,最大重试100次,非测试模式,最大重试16次,如果重试次数结束都无法创建服务器,则报错,启动Master失败。

4.注册Endpoint(Master)

注册Endpoint主要使用RpcEnv#setupEndpoint方法来完成注册,这个方法内部又调用了Dispatcher的registerRpcEndpoint来进行记录Endpoint。当注册完成后会返回一个EndpointRef,后面可以用这个Ref来向Endpoint发送rpc请求。


注:点击图片放大即可清晰查阅

接下来开始构造Master,当构造完成后会调用OnStart方法(在创建Dispatcher时,Dispatcher会初始化ShareMessageLoop,当注册Endpoint时会用到MessageLoop#register函数,这个函数会对每个注册的Endpoint都创建一个InBox,且在new InBox时,会向里面放OnStart消息作为Endpoint的InBox的第一个消息)
在onStart方法中,主要启动web ui和rest server以及一些指标系统;和leader选举等。


注:点击图片放大即可清晰查阅


注:点击图片放大即可清晰查阅

当master服务器启动后,会使用EndpointRef向Master发送BoundPortsResponse消息来获取Master启动的web ui端口和rest端口。
到此Master启动完成,awaitTermination等待Master关闭,这个是使用CountDownLatch来实现的。

后面就等待Worker来连接、Driver来提交作业。




加微信w3aboutyun,获取更多资源

https://www.aboutyun.com/data/attachment/forum/201912/26/080948j470n3tgw4h0p7kp.jpg

领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480

大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235

名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732



文件来源1:https://www.jianshu.com/p/1c1f63be8042
文章来源2:https://www.jianshu.com/p/2cb374bab61b










页: [1]
查看完整版本: Spark3.0之IDEA编译Spark源码及流程启动