搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Spark
›
总结型
›
Spark性能优化的10大问题及其解决方案
0
2
3
分享
Spark性能优化的10大问题及其解决方案
韩克拉玛寒
2015-4-21 17:09:27
发表于
总结型
[显示全部楼层]
阅读模式
关闭右栏
2
24303
问题导读:
1、了解Spark常见性能优化都有那些?
2、如何对Spark性能问题进行解决以及解决的方案都有那些?
问题1:reduce task数目不合适
解决方式:
需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任务运行缓慢。
问题2:shuffle磁盘IO时间长
解决方式:
设置spark.local.dir为多个磁盘,并设置磁盘为IO速度快的磁盘,通过增加IO来优化shuffle性能;
问题3:map|reduce数量大,造成shuffle小文件数目多
解决方式:
默认情况下shuffle文件数目为map tasks * reduce tasks
通过设置spark.shuffle.consolidateFiles为true,来合并shuffle中间文件,此时文件数为reduce tasks数目;
问题4:序列化时间长、结果大
解决方式:
Spark默认使.用JDK.自带的ObjectOutputStream,这种方式产生的结果大、CPU处理时间长,可以通过设置spark.serializer为org.apache.spark.serializer.KryoSerializer。
另外如果结果已经很大,可以使用广播变量;
问题5:单条记录消耗大
解决方式:
使用mapPartition替换map,mapPartition是对每个Partition进行计算,而map是对partition中的每条记录进行计算;
问题6 : collect输出大量结果时速度慢
解决方式:
collect源码中是把所有的结果以一个Array的方式放在内存中,可以直接输出到分布式?文件系统,然后查看文件系统中的内容;
问题7: 任务执行速度倾斜
解决方式:
如果是数据倾斜,一般是partition key取的不好,可以考虑其它的并行处理方式 ,并在中间加上aggregation操作;
如果是Worker倾斜,例如在某些worker上的executor执行缓慢,可以通过设置spark.speculation=true 把那些持续慢的节点去掉;
问题9: 通过多步骤的RDD操作后有很多空任务或者小任务产生
解决方式:
使用coalesce或repartition去减少RDD中partition数量;
问题10:Spark Streaming吞吐量不高
解决方式:
可以设置spark.streaming.concurrentJobs
来自群组:
about云小组群
本帖被以下淘专辑推荐:
·
大数据优化专题
|
主题: 104, 订阅: 6
欢迎加入about云群
425860289
、
432264021
,云计算爱好者群,亦可关注
about云腾讯认证空间
||
关注本站微信
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(2)人评论
电梯直达
正序浏览
cochou
发表于 2015-4-21 17:52:58
回复
使用道具
举报
显身卡
271592448
发表于 2015-4-22 13:09:12
总结的非常好啊
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
活跃会员
经常参与各类话题的讨论,发帖内容较有主见
发表新帖
韩克拉玛寒
高级会员
关注
40
主题
389
帖子
46
粉丝
TA的主题
HBase集群启动报错,请各位大神帮忙看看
2015-5-20
ZooKeeper 常用操作API详解
2015-4-28
说说Zookeeper中的ACL
2015-4-28
ubuntu linux命令行简明教程和中文教程
2015-4-24
Hadoop权威指南学习笔记
2015-4-24
24小时热文
kafka面试题精选
Nebula Flink Connector 在实时 ETL 的实践
Apache Doris 用户案例集
国家电网公司主数据管理系统技术规范
企业的主数据建设方法论与实践
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈