图文精华

hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...

About云-梭伦科技»专题 › 交流区 › 技术交流 › Spark › 关于spark Streaming里的distinct的疑问

0
2
0

分享

关于spark Streaming里的distinct的疑问

邓立辉发表于 2015-11-20 18:08:08 [显示全部楼层] 回帖奖励

回帖奖励

阅读模式关闭右栏 2 14769

我今天写代码测试发现，感觉rdd的distinct貌似没在rdd的每个分区上先做本地的distinct，而是对整个rdd直接做distinct。因为我将这个rdd直接分成10个rdd，对每个rdd做distinct，然后在union，明显比之前快多了。
知道原理的牛人们指点一下。

回复

使用道具举报

自定义广告语

已有(2)人评论

电梯直达

跳转到指定楼层

正序浏览

w123aw 发表于 2015-11-20 20:09:55

这个就相当于大家共同的任务，一个任务一台机器做，肯定慢。
一个任务分给10个人，最后整合。这样更快一些。
这跟同样的数据，传统程序肯定慢。mapreduce会快，因为它是多台分工合作，最后有reduce合并

回复

使用道具举报

w123aw 发表于 2015-11-20 20:11:48

个人认为这篇文章挺好
【Spark】RDD操作详解2——值型Transformation算子
http://www.aboutyun.com/thread-14523-1-1.html

回复

使用道具举报

发表新帖

邓立辉

中级会员

关注

24

主题
108

帖子
5

粉丝

TA的主题

24小时热文

推荐 /2

关于我们· 联系我们· 加入我们· 小黑屋· 合作伙伴

Copyright © 2001-2025 About云-梭伦科技 Powered by Discuz! X3.4 Licensed Discuz Team.

简书 / 京ICP备2020039040号简书网举报电话：021-34700000

意见
反馈