关于spark Streaming里的distinct的疑问-Spark-About云-梭伦科技

邓立辉 发表于 2015-11-20 18:08:08

我今天写代码测试发现，感觉rdd的distinct貌似没在rdd的每个分区上先做本地的distinct，而是对整个rdd直接做distinct。因为我将这个rdd直接分成10个rdd，对每个rdd做distinct，然后在union，明显比之前快多了。
知道原理的牛人们指点一下。

w123aw 发表于 2015-11-20 20:09:55

这个就相当于大家共同的任务，一个任务一台机器做，肯定慢。
一个任务分给10个人，最后整合。这样更快一些。
这跟同样的数据，传统程序肯定慢。mapreduce会快，因为它是多台分工合作，最后有reduce合并

w123aw 发表于 2015-11-20 20:11:48

个人认为这篇文章挺好
【Spark】RDD操作详解2——值型Transformation算子
http://www.aboutyun.com/thread-14523-1-1.html

页: [1]

About云-梭伦科技's Archiver