关于spark Streaming里的distinct的疑问
我今天写代码测试发现,感觉rdd的distinct貌似没在rdd的每个分区上先做本地的distinct,而是对整个rdd直接做distinct。因为我将这个rdd直接分成10个rdd,对每个rdd做distinct,然后在union,明显比之前快多了。知道原理的牛人们指点一下。
这个就相当于大家共同的任务,一个任务一台机器做,肯定慢。
一个任务分给10个人,最后整合。这样更快一些。
这跟同样的数据,传统程序肯定慢。mapreduce会快,因为它是多台分工合作,最后 有reduce合并
个人认为这篇文章挺好
【Spark】RDD操作详解2——值型Transformation算子
http://www.aboutyun.com/thread-14523-1-1.html
页:
[1]