搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
Spark
›
求助,spark streaming懒执行与stage的关系
0
1
0
分享
求助,spark streaming懒执行与stage的关系
邓立辉
发表于 2016-5-3 11:08:29
[显示全部楼层]
阅读模式
关闭右栏
1
6777
懒执行是相对于stage内部还是 整个DAG图的?还有我之前以为spark遇到action操作才会产生一个stage,实际在spark ui里发现flatmap也会产生一个stage,为什么?
我还经常遇到这种需求功能,我有几万的数据,和一个百亿的hbase数据库。把几万数据在百亿数据里做一系列的转换和行为,得到几千条数据,但是我只需要100条数据就够了。于是我就想,用take(n)和懒执行的方式,就不用把几万数据都做一些列转化和行为。但是我在用take的时候,发现几万的数据还是和百亿数据都做转化和行为了。
有没有什么方法,让spark在得出100条数据后,剩下的数据就不在计算了。
不知道我说清楚了没有?
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
goldtimes
发表于 2016-5-3 13:58:48
Spark 中所有的转换都是懒执行的。所以它们并不马上计算它们的结果。代替的,它们记着这些用于基础数据集的转换,当一个动作要求一个结果被返回来,那么才执行这些计算。个人认为并不是对于stage内部或则是DAG图,而是spark的一种执行方式。
如果有全是转换操作,懒执行可能贯穿整个stage或则DAG。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~·
只计算一部分,你可以全局控制,这个应该可以通过程序控制。
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
邓立辉
中级会员
关注
24
主题
108
帖子
5
粉丝
TA的主题
hbase分组统计问题
2016-5-21
怎么提高hbase压缩数据的速度
2016-5-17
spark streaming 报错
2016-5-12
cdh的api的问题
2016-5-11
重启kafka后,消息生成者需要自己做重连?
2016-5-9
24小时热文
Spark机器学习
Spark机器学习算法、源码及实战详解
《深度实践Spark机器学习(吴茂贵)》高清
《Spark机器学习第2版》高清中文PDF
像高手一样发言:七种常见工作场景的说话之
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈