邓立辉 发表于 2015-11-20 18:08:08

关于spark Streaming里的distinct的疑问

我今天写代码测试发现,感觉rdd的distinct貌似没在rdd的每个分区上先做本地的distinct,而是对整个rdd直接做distinct。因为我将这个rdd直接分成10个rdd,对每个rdd做distinct,然后在union,明显比之前快多了。
知道原理的牛人们指点一下。

w123aw 发表于 2015-11-20 20:09:55

这个就相当于大家共同的任务,一个任务一台机器做,肯定慢。
一个任务分给10个人,最后整合。这样更快一些。
这跟同样的数据,传统程序肯定慢。mapreduce会快,因为它是多台分工合作,最后 有reduce合并

w123aw 发表于 2015-11-20 20:11:48



个人认为这篇文章挺好
【Spark】RDD操作详解2——值型Transformation算子
http://www.aboutyun.com/thread-14523-1-1.html



页: [1]
查看完整版本: 关于spark Streaming里的distinct的疑问