执行DataFrame.count的时候遇到的问题,求大神帮忙

查看数: 10522 | 评论数: 4 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2016-1-20 10:48

正文摘要:

我再这行DataFrame之前做个多次unionAll操作。这个count的DataFrame是经过多次unionAll出来的一个DataFrame。 请问为什么会有这么多的task,严重影响执行效率。而且实际数据只有几百条而已。

回复

easthome001 发表于 2016-1-21 12:38:33
duliming 发表于 2016-1-21 09:59
[SPARK-12616]已解决此问题。

还没毕业,英文不懂55555
duliming 发表于 2016-1-21 09:59:56
duliming 发表于 2016-1-20 13:54
那有什么办法解决吗?我暂时解决的办法是先导出到HDFS再重新加载一次。

[SPARK-12616]已解决此问题。
duliming 发表于 2016-1-20 13:54:42
wscl1213 发表于 2016-1-20 12:30
楼主多次union的结果
而且这可能N的N次方肯定很大的。

那有什么办法解决吗?我暂时解决的办法是先导出到HDFS再重新加载一次。
wscl1213 发表于 2016-1-20 12:30:36
楼主多次union的结果
而且这可能N的N次方肯定很大的。
关闭

推荐上一条 /2 下一条