搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
Spark
›
关于spark Streaming里的distinct的疑问
0
2
0
分享
关于spark Streaming里的distinct的疑问
邓立辉
发表于 2015-11-20 18:08:08
[显示全部楼层]
阅读模式
关闭右栏
2
14769
我今天写代码测试发现,感觉rdd的distinct貌似没在rdd的每个分区上先做本地的distinct,而是对整个rdd直接做distinct。因为我将这个rdd直接分成10个rdd,对每个rdd做distinct,然后在union,明显比之前快多了。
知道原理的牛人们指点一下。
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(2)人评论
电梯直达
正序浏览
w123aw
发表于 2015-11-20 20:09:55
这个就相当于大家共同的任务,一个任务一台机器做,肯定慢。
一个任务分给10个人,最后整合。这样更快一些。
这跟同样的数据,传统程序肯定慢。mapreduce会快,因为它是多台分工合作,最后 有reduce合并
回复
使用道具
举报
显身卡
w123aw
发表于 2015-11-20 20:11:48
个人认为这篇文章挺好
【Spark】RDD操作详解2——值型Transformation算子
http://www.aboutyun.com/thread-14523-1-1.html
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
邓立辉
中级会员
关注
24
主题
108
帖子
5
粉丝
TA的主题
hbase分组统计问题
2016-5-21
怎么提高hbase压缩数据的速度
2016-5-17
spark streaming 报错
2016-5-12
cdh的api的问题
2016-5-11
重启kafka后,消息生成者需要自己做重连?
2016-5-9
24小时热文
哈佛通识教育红皮书 (北大高等教育文库·大
代码精进之路:从码农到工匠
为什么面试难!一文帮我们看透本质,拿捏of
大数据面试题
字节跳动精选面经合集
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈