用户组:游客
使用道具 举报
einhep 发表于 2017-6-22 12:14 从效率来讲,DataFrame比RDD更快一些。方法就那些,所以楼主需要做的是优化集群等。还有你是怎么做的。这样 ...
macWang 发表于 2017-6-22 14:15 是这样的,我现在用sparksql从hdfs拿了parquet格式的文件生成DF,文件每行数据都有个string类型的rowkey ...
einhep 发表于 2017-6-22 15:57 下面提供三个思路1.重构spark排序算法 2.既然使用terasort效率更高,为何不用terasort排序 3.有个YDB排 ...
本版积分规则 发表回复 回帖后跳转到最后一页
积极上进,爱好学习
新手上路
14
主题
38
帖子
4
粉丝
查看 »