问题导读
1.了解sqlClient 代码有哪些好处?
2.如何添加启动类运行需要的参数和依赖包?
3.如何Debug Flink 1.12 源码?
前言
此文章主要如何配置使能在idea 中debug模式启动flink sqlClient 客户端,通过执行flink sql debug源码查看flink解析sql提交任务到flink集群执行的原理。
了解sqlClient 代码 有以下好处:
改造 sqlClient 成为server端使之可以接收远端client服务传输的flink sql语句,并返回执行结果到远端client,从而有望可以实现flink开发平台。
主要软件如下:flink 1.12.0 hive 2.3.4 hadoop 2.7.2
主要步骤
下载flink1.12的源码
官网下载地址如下:https://www.apache.org/dyn/close ... link-1.12.0-src.tgz
源码在idea中打开,主要查看 flink-table 项目的源码
找到flink sqlClient的启动类
由 sql-client 的启动脚本 sql-client.sh 可知,启动类为 SqlClient 类其main方法为整个sqlClient 的启动方法
添加启动类运行需要的参数和依赖包
由flink sqlClient 启动脚本命令为:
可知 需要添加 embedded 参数
由启动脚本由 -classpath 参数,可知运行sqlClient需要添加依赖包
在启动脚本中添加打印日志逻辑把 manglePathList "$CC_CLASSPATH:$INTERNAL_HADOOP_CLASSPATHS:$FLINK_SQL_CLIENT_JAR" 结果值打印出来
得到的结果是以:分隔开的需要依赖的jar包
使用以下脚本下载包到本地目录:D:\flink\lib
- # `manglePathList "$CC_CLASSPATH:$INTERNAL_HADOOP_CLASSPATHS:$FLINK_SQL_CLIENT_JAR"`
- jars=`hadoop classpath`
- OLD_IFS="$IFS"
- IFS=":"
- arr=($jars)
- IFS="$OLD_IFS"
- for s in ${arr[@]}
- do
- echo "$s"
- sz $s
- done
复制代码
idea 中添加D:\flink\lib 目录上的包到项目中
添加flink的配置文件
运行main方法发现报了提示找不到配置文件的错,发现读取了 FLINK_CONF_DIR 变量名的值作为配置文件路径
在idea 中添加系统变量 FLINK_CONF_DIR=D:\flink\conf
下载flink 的所有配置文件目录:/usr/local/apps/flink1.12/conf 下的所有配置文件 到D:\flink\conf 文件夹内
运行SqlClient 的main方法启动
启动成功 在idea的窗口中出现如下图案
flink中整合hive catalogs 支持执行hive 语句
修改 flink 的配置文件 sql-client-defaults.yaml 配置 hive catalogs
hive-conf-dir 中存放hive的配置文件
同时需要启动:hive --service metastore
执行语句检查是否提交到flink集群上
- INSERT INTO test_hive SELECT ‘Jack’, 20;
-
- select * from test_hive;
复制代码
debug flink sql 执行流程
以debug 模式启动SqlClient 的main方法
执行 INSERT INTO test_hive SELECT ‘Jack’, 20; 语句读取到flink sql
parseCommand 方法解析提交的flink sql
callCommand 方法执行flink sql
callCommand 方法中根据sql的类型执行不同的方法
这里执行的是callInsert
executor.executeUpdate 执行flink sql
后面的print 语句就是打印下面这内容
最新经典文章,欢迎关注公众号
原文链接
https://www.jianshu.com/p/bd4415cecc16
|