关于spark1.5分区的问题

查看数: 9347 | 评论数: 1 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

发布时间: 2016-3-8 18:46

当数据量比较大的时候，通常会增加分区来提高并行度。在市面上一些spark书中（大部分基于spark1.2左右版本），数据读取后重新分区的RDD，如果之后计算会重复用到，需要通过persist缓存到内存或者磁盘中来避免重复计 ...

xuanxufeng 发表于 2016-3-9 13:36:18

赞同楼主的观点，不过最好的验证方式还是看看代码

图文精华