分享

Spark使用mllib进行机器学习执行时间较长

1.png
这个是较长时间的数据,
2.png
对比时间较短的数据
在task上没有出现数据不均匀的情况,只是在各个executor节点上的数据出现不均匀的情况,如果想缩短每个task节点时间,这个是不是节点数据分布不均匀造成的,还有就是在yarn上的日志,会出现断断续续的情况 3.png 这个是因为我spark程序设置日志级别的问题么。

已有(1)人评论

跳转到指定楼层
qcbb001 发表于 2017-12-28 21:09:44
任务执行时间长短不一是正常的,因为可能有的是在本地读取数据,有的可能是需要远程读取数据。而且如果存在热点,也就是数据不均匀,机器就会很忙,所以会造成读取很慢。甚至会造成一些任务卡住等现象。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条