关于spark1.5分区的问题

查看数: 9347 | 评论数: 1 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2016-3-8 18:46

正文摘要:

当数据量比较大的时候,通常会增加分区来提高并行度。在市面上一些spark书中(大部分基于spark1.2左右版本),数据读取后重新分区的RDD,如果之后计算会重复用到,需要通过persist缓存到内存或者磁盘中来避免重复计 ...

回复

xuanxufeng 发表于 2016-3-9 13:36:18
赞同楼主的观点,不过最好的验证方式还是看看代码
关闭

推荐上一条 /2 下一条