分享

spark-jobserver入门教程

本帖最后由 Oner 于 2016-12-29 10:42 编辑
问题导读:
1. spark-jobserver有哪些特性?
2. 如何安装spark-jobserver?
3. 如何使用跟job相关的一些resful?
4. 如何使用跟context相关的一些resful?
5. 如何对spark-jobserver做一些配置?

spark-jobserver提供了一个用于提交和管理Apache Spark作业(job)、jar文件和作业上下文(SparkContext)的RESTful接口。该项目位于git(https://github.com/ooyala/spark-jobserver),当前为0.4版本。

特性

“Spark as a Service”: 简单的面向job和context管理的REST接口
通过长期运行的job context支持亚秒级低延时作业(job)
可以通过结束context来停止运行的作业(job)
分割jar上传步骤以提高job的启动
异步和同步的job API,其中同步API对低延时作业非常有效
支持Standalone Spark和Mesos
Job和jar信息通过一个可插拔的DAO接口来持久化
命名RDD以缓存,并可以通过该名称获取RDD。这样可以提高作业间RDD的共享和重用

安装并启动jobServer

jobServer依赖sbt,所以必须先装好sbt。
  1. rpm -ivh https://dl.bintray.com/sbt/rpm/sbt-0.13.6.rpm
  2. yum install git
  3. # 下面clone这个项目
  4. SHELL$ git clone https://github.com/ooyala/spark-jobserver.git
  5. # 在项目根目录下,进入sbt  
  6. SHELL$ sbt
  7. ......
  8. [info] Set current project to spark-jobserver-master (in build file:/D:/Projects
  9. /spark-jobserver-master/)
  10. >
  11. #在本地启动jobServer(开发者模式)
  12. >re-start --- -Xmx4g
  13. ......
  14. #此时会下载spark-core,jetty和liftweb等相关模块。
  15. job-server Starting spark.jobserver.JobServer.main()
  16. [success] Total time: 545 s, completed 2014-10-21 19:19:48
复制代码

然后访问http://localhost:8090 可以看到Web UI
job-640x351.jpg
​
测试job执行

这里我们直接使用job-server的test包进行测试

  1. SHELL$ sbt job-server-tests/package
  2. ......
  3. [info] Compiling 5 Scala sources to /root/spark-jobserver/job-server-tests/target/classes...
  4. [info] Packaging /root/spark-jobserver/job-server-tests/target/job-server-tests-0.4.0.jar ...
  5. [info] Done packaging.
复制代码

编译完成后,将打包的jar文件通过REST接口上传
REST接口的API如下:
GET /jobs 查询所有job
POST /jobs 提交一个新job
GET /jobs/ 查询某一任务的结果和状态
GET /jobs//config

  1. SHELL$ curl --data-binary @job-server-tests/target/job-server-tests-0.4.0.jar localhost:8090/jars/test
  2. OK
  3. # 查看提交的jar
  4. SHELL$ curl localhost:8090/jars/
  5. {
  6.   "test": "2014-10-22T15:15:04.826+08:00"
  7. }
  8. # 提交job
  9. 提交的appName为test,class为spark.jobserver.WordCountExample
  10. SHELL[        DISCUZ_CODE_111        ]nbsp; curl -d "input.string = hello job server" 'localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample'
  11. {
  12.   "status": "STARTED",
  13.   "result": {
  14.     "jobId": "34ce0666-0148-46f7-8bcf-a7a19b5608b2",
  15.     "context": "eba36388-spark.jobserver.WordCountExample"
  16.   }
  17. }
  18. # 通过job-id查看结果和配置信息
  19. SHELL$ curl localhost:8090/jobs/34ce0666-0148-46f7-8bcf-a7a19b5608b2
  20. {
  21.   "status": "OK",
  22.   "result": {
  23.     "job": 1,
  24.     "hello": 1,
  25.     "server": 1
  26.   }
  27. SHELL$ curl localhost:8090/jobs/34ce0666-0148-46f7-8bcf-a7a19b5608b2/config
  28. {
  29.     "input" : {
  30.         "string" : "hello job server"
  31. }
  32. # 提交一个同步的job,当执行命令后,terminal会hang住直到任务执行完毕。
  33. SHELL$ curl -d "input.string = hello job server" 'localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample'&sync=true
  34. {
  35.   "status": "OK",
  36.   "result": {
  37.     "job": 1,
  38.     "hello": 1,
  39.     "server": 1
  40.   }
复制代码

在Web UI上也可以看到Completed Jobs相应的信息。

预先启动Context

和Context相关的API
GET /contexts ​查询所有预先建立好的context
POST /contexts ​建立新的context
DELETE ​/contexts/ ​删除此context,停止运行于此context上的所有job

  1. SHELL$ curl -d "" 'localhost:8090/contexts/test-context?num-cpu-cores=4&mem-per-node=512m'
  2. OK
  3. # 查看现有的context
  4. curl localhost:8090/contexts
  5. ["test-context", "feceedc3-spark.jobserver.WordCountExample"]
  6. 接下来在这个context上执行job
  7. curl -d "input.string = a b c a b see" 'localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample&context=test-context&sync=true'
  8. {
  9.   "status": "OK",
  10.   "result": {
  11.     "a": 2,
  12.     "b": 2,
  13.     "c": 1,
  14.     "see": 1
  15.   }
复制代码

配置文件

打开配置文件,可以发现master设置为local[4],可以将其改为我们的集群地址。

  1. vim spark-jobserver/config/local.conf.template
  2. master = "local[4]"
复制代码

此外,关于数据对象的存储方法和路径:

  1. jobdao = spark.jobserver.io.JobFileDAO
  2.     filedao {
  3.       rootdir = /tmp/spark-job-server/filedao/data
  4.     }
复制代码

默认context设置,该设置可以被下面再次在sbt中启动REST接口的中的参数覆盖。

  1. # universal context configuration.  These settings can be overridden, see README.md
  2.   context-settings {
  3.     num-cpu-cores = 2           # Number of cores to allocate.  Required.
  4.     memory-per-node = 512m         # Executor memory per node, -Xmx style eg 512m, #1G, etc.
  5.     # in case spark distribution should be accessed from HDFS (as opposed to being installed on every mesos slave)
  6.     # spark.executor.uri = "hdfs://namenode:8020/apps/spark/spark.tgz"
  7.     # uris of jars to be loaded into the classpath for this context
  8.     # dependent-jar-uris = ["file:///some/path/present/in/each/mesos/slave/somepackage.jar"]
  9.   }
复制代码

基本的使用到此为止,jobServer的部署和项目使用将之后介绍。顺便期待下一个版本SQL Window的功能。

来源:outofmemory
作者:Debugo

已有(1)人评论

跳转到指定楼层
ww102111 发表于 2016-12-29 15:04:33
请问一下这个context有什么具体的区别吗
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条