用户组:游客
当数据量比较大的时候,通常会增加分区来提高并行度。在市面上一些spark书中(大部分基于spark1.2左右版本),数据读取后重新分区的RDD,如果之后计算会重复用到,需要通过persist缓存到内存或者磁盘中来避免重复计 ...
查看 »