搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
Spark
›
多个spark程序,如何高效、有序的运行?
0
1
0
分享
多个spark程序,如何高效、有序的运行?
cloudcat
发表于 2016-12-29 15:19:10
[显示全部楼层]
阅读模式
关闭右栏
1
6907
本帖最后由 cloudcat 于 2016-12-29 15:23 编辑
项目需求
:我有一个spark的计算服务器,多个用户不停的向我提交任务,服务器计算结果返回给客户,如何让这些任务有序,高效的运行起来?
编程语言:scala
我的想法
:
方法1 有一个成熟,自动管理spark job的组件,或者服务,起到实时监控的作用。当用户提交新job时候,服务会判断如果前面有任务执行就处于等待,如果前面任务占用资源很小,依然可以启动新job。这个组件能够正确,充分利用集群资源,运行完所有的job。
方法2: 我自己用scala或者java写一个监控程序,当有任务来的时候,我先把任务放入一个队列,如果前面没任务我就直接运行job,如果有任务我就等待,直到前面的任务执行结束,才开始执行新的job,这种方法可以吗?
但是第二种方法也有问题,由于自己写的程序,没有成熟的组件,前面的job如果占用资源很少,我也处于等待;如果前面的任务异常,一直不返回job已经完成的状态,后面的job一直处于等待。
请大家推荐一个思路,谢谢
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
einhep
发表于 2016-12-29 16:26:29
spark有调度策略,可以自己配置下
推荐参考
Spark 作业调度--job执行方式介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7600
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
cloudcat
中级会员
关注
29
主题
92
帖子
6
粉丝
TA的主题
Hbase region太多导致集群压力大,如何解决?
2017-3-8
hbase region导致磁盘Io过高,CPU 使用率过高,如何解决
2017-3-8
CDH集群磁盘IO太高,CPU也很高,如何查询原因
2017-3-3
R语言是否能调用webservice?
2017-1-5
R语言如何对外提供统计服务?
2017-1-3
24小时热文
kafka面试题精选
Nebula Flink Connector 在实时 ETL 的实践
Apache Doris 用户案例集
国家电网公司主数据管理系统技术规范
企业的主数据建设方法论与实践
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈