搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
Code源码
›
大数据
›
Spark源码分析
›
Spark3.0之IDEA编译Spark源码及流程启动
0
0
0
分享
Spark3.0之IDEA编译Spark源码及流程启动
hanyunsong
2020-7-30 18:33:56
发表于
Spark源码分析
[显示全部楼层]
只看大图
阅读模式
关闭右栏
0
4926
About云VIP帮助找工作和提升
本帖最后由 hanyunsong 于 2020-7-31 15:09 编辑
问题导读:
1. 如何下载Spark3.0源码?
2. 如何配置pom.xml?
3. 如何用IDEA编译Spark3.0源码?
4. 在Spark的standalone 模式中Master是如何启动?
5. 在Master启动后又做了哪些操作?
阅读源码的第一步是下载Spark源码,并导入到工具中阅读。
下载
1. 进入
http://spark.apache.org/downloads.html
页面,点击
注:点击图片放大即可清晰查阅
箭头连接即可下载Spark3.0源码。
2. 安装Maven,需要安装Maven 3.6以上的版本。
3. 安装Scala2.12.10+,Spark3.0需要使用2.12.10以上的版本。
调整pom.xml
1. 修改根目录下的pom.xml文件,将googleapis仓库给注释掉
注:点击图片放大即可清晰查阅
注:点击图片放大即可清晰查阅
如果是在windows下,需要将spark-core项目的pom.xml文件中的antrun-plugin插件修改下,如下图
注:点击图片放大即可清晰查阅
将bash修改成cmd。
编译
可以直接导入到IDEA中进行编译,也可以直接在控制台进行编译,如控制台:
进入spark界面的跟目录
执行maven编译命令mvn compile/package;如果需要跳过测试,使用命令:mvn compile/package -Dmaven.test.skip=true
经过漫长地等待(取决于网络),Spark将编译完成。
Master启动流程
从Spark2.0开始就以及删除了akka的相关通信代码,所以3.0的rpc通讯采用的还是2.0之后的Netty来作为底层通讯框架;SparkMaster的启动类(org.apache.spark.deploy.master.Master.scala),在这个class中的main函数是启动Master的开始,我们就从这里开始。
主要启动流程如下:
设置多线程的异常处理器
获取和解析SparkMaster参数信息
启动RpcEnv
注册Endpoint
等待Master优雅关闭
1. 设置多线程的异常处理器
因在多线程中其异常无法准备获取,需要进行设置线程的异常处理器来进行处理.
注:点击图片放大即可清晰查阅
2. 获取和解析SparkMaster的参数信息
注:点击图片放大即可清晰查阅
在SparkConf中主要从系统的环境变量中加载因spark开头的环境变量参数
注:点击图片放大即可清晰查阅
解析的参数信息会存放在settings中。
而MasterArguments主要是用来解析Master启动时通过args传递的参数,以及Spark配置文件中的信息(默认为SPARK_HOME/conf/spark-default.conf文件):
注:点击图片放大即可清晰查阅
3. 启动RpcEnv
在Master的main中会调用startRpcEnvAndEndpoint,这个函数来负责启动Rpc并注册Endpoint(Master)
注:点击图片放大即可清晰查阅
其中SecurityManager主要是SparkConf中获取是否启用了安全和权限信息等。
注:点击图片放大即可清晰查阅
主要创建RpcEnv的是采用抽象工厂模式来创建NettyRpcEnv的(之前还有akka,现在只剩下netty了)。
接下来看看NetyRpcEnv是如何创建的RpcEnv的
注:点击图片放大即可清晰查阅
1、先new出NettyRpcEnv实例,在NettyRpcEnv进行构造函数初始化时,会初始化一些主要的类,如Dispatcher、TransportContext、NettyRpcHandler,以及outbox。
2、判断是否是客户端模式,非客户端模式需要启动服务器,主要用TransportContext来创建服务器
注:点击图片放大即可清晰查阅
在创建服务器完成后,会注册一个验证的Endpoint(RpcEndpointVerifier),后面会用这个Endpoint来验证给定的EndpointName是否存在之类的操作。
在启动服务器时如果端口被占用,会按照算法进行算出下一个端口,如果是测试模式,最大重试100次,非测试模式,最大重试16次,如果重试次数结束都无法创建服务器,则报错,启动Master失败。
4.注册Endpoint(Master)
注册Endpoint主要使用RpcEnv#setupEndpoint方法来完成注册,这个方法内部又调用了Dispatcher的registerRpcEndpoint来进行记录Endpoint。当注册完成后会返回一个EndpointRef,后面可以用这个Ref来向Endpoint发送rpc请求。
注:点击图片放大即可清晰查阅
接下来开始构造Master,当构造完成后会调用OnStart方法(在创建Dispatcher时,Dispatcher会初始化ShareMessageLoop,当注册Endpoint时会用到MessageLoop#register函数,这个函数会对每个注册的Endpoint都创建一个InBox,且在new InBox时,会向里面放OnStart消息作为Endpoint的InBox的第一个消息)
在onStart方法中,主要启动web ui和rest server以及一些指标系统;和leader选举等。
注:点击图片放大即可清晰查阅
注:点击图片放大即可清晰查阅
当master服务器启动后,会使用EndpointRef向Master发送BoundPortsResponse消息来获取Master启动的web ui端口和rest端口。
到此Master启动完成,awaitTermination等待Master关闭,这个是使用CountDownLatch来实现的。
后面就等待Worker来连接、Driver来提交作业。
加微信w3aboutyun,获取更多资源
领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480
大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235
名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732
文件来源1:
https://www.jianshu.com/p/1c1f63be8042
文章来源2:
https://www.jianshu.com/p/2cb374bab61b
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
没找到任何评论,期待你打破沉寂
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
hanyunsong
中级会员
关注
25
主题
48
帖子
4
粉丝
TA的主题
面试最新整理常问Spark知识点
2020-9-17
企业级数据仓库构建(八):搭建DWD 层-业务数据
2020-9-17
企业级数据仓库构建(五):数据仓库项目实战
2020-9-14
大数据分布式查询引擎Presto学习之路
2020-9-14
企业级数据仓库构建(三):数据采集模块环境搭建
2020-9-10
24小时热文
Flink CDC:新一代实时数据集成框架
蚂蚁面试就是不一样
如何高效学习
人情世故速查速用大全集
框架思维
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈