分享

请问有没有人做过spark的性能测试

lsy1996 发表于 2017-3-9 11:11:43 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 5 11440
主要是I/O,磁盘之类的

已有(5)人评论

跳转到指定楼层
langke93 发表于 2017-3-9 13:51:55
性能测试,得有个比较。如果只想知道的话,可以查看这方面的监控。
如果比较的话,看跟谁比较,做什么事情。
比如跟hadoop,排序比较。推荐参考
Spark MapReduce 排序性能测试比较
http://www.aboutyun.com/forum.php?mod=viewthread&tid=21199


回复

使用道具 举报

easthome001 发表于 2017-3-9 14:01:08

硬件环境:
开发机器是 3台 Intel(R) Xeon(R) CPU E5440 @ 2.83GHz双核 2.8G 4G内存
操作系统:
Red Hat Enterprise Linux Server release 5.7 (Tikanga)
Spark配置:
三节点,每个节点2G内存,14 个维度,100个类别,10次迭代,使用不同大小样例文件分析。
结论1:定义0.8(数据量/2048/3)作为三节点的阈值,当运行数据在阈值内时性能成单调递增,当超过该阈值时,性能急剧下降,当超过阈值2%时性能下降53.11937%,当超过34.01326%,性能下降70.80896%

以下是测试数据:
序号数据文件大小(M)记录条数耗时数据文件/耗时数据/内存数据/内存/节点数
033.33147,106103.3333440.0162740.005425
1100441,319137.6923170.0488280.016276
2166.67735,5331511.111180.0813820.027127
3233.331,029,7462011.666520.1139310.037977
4341.331,506,3712314.84060.1666650.055555
55122,259,5573017.066660.250.083333
6682.673,012,7434216.254020.3333350.111112
7853.333,765,9294518.962910.4166650.138888
81,024.004,519,1155717.964940.50.166667
91,194.675,272,3016518.379530.5833350.194445
101,365.336,025,4877318.703160.6666650.222222
111,536.006,778,6738019.200010.750.25
121,706.677,531,8599517.964910.8333350.277778
131,877.338,285,04414712.770970.9166650.305555
142,048.009,038,23010419.692310.333333
152,218.669,791,41611319.634171.083330.36111
162,389.3310,544,60212419.268811.1666650.388888
172,560.0111,297,78817514.628611.2500050.416668
182,730.6612,050,97418414.840561.333330.444443
192,901.3412,804,16016417.691091.416670.472223
203,072.0013,557,34615519.819341.50.5
213,242.6714,310,53216220.016471.5833350.527778
223,413.3415,063,71816620.562311.666670.555557
233,754.6816,570,08917920.975851.833340.611113
244,266.6818,829,64618922.575012.083340.694447
254,500.0119,859,39220921.531142.1972710.732424
264,666.6820,594,92520223.102352.2786520.759551
274,766.6821,036,24420223.59742.327480.775827
284,866.6821,477,56322621.533962.3763090.792103
294,966.6821,918,88222022.57582.4251370.808379
305,066.6822,360,20145811.062612.4739650.824655
315,120.0122,595,57746311.058342.5000050.833335
326,656.0129,374,25010106.590113.2500051.083335



Spark配置:
一节点, 2G内存,14 个维度,100个类别,10次迭代。
结论2:定义0.9(数据量/2048)作为三节点的阈值,当运行数据在阈值内时性能成单调递增,当超过该阈值时,性能急剧下降,当超过阈值8.3334961%时性能下降57.61797318%,当超过18.18167291%,性能下降66.4701143%
当超过36.36441116%,性能下降94.14757913%
序号数据文件大小(M)记录条数耗时数据文件/耗时数据/内存
033.33147,106103.3333440.016274
1100.00441,319205.0000060.048828
2166.67735,533276.172880.081382
3233.331,029,746346.8626570.113931
4341.331,506,371457.5851970.166665
5512.002,259,557647.9999970.25
6682.673,012,743858.0314010.333335
7853.333,765,9291028.3659890.416665
81,024.004,519,1151188.677980.5
91,194.675,272,3011378.7202160.583335
101,365.336,025,4871538.9237290.666665
111,536.006,778,6731768.7272790.75
121,706.677,531,8591938.842830.833335
131,877.338,285,0442238.418530.916665
142,048.009,038,2305743.5679441
152,218.669,791,4167862.8227241.08333
162,389.3310,544,60211342.1069951.166665
172,560.0111,297,78851960.4926881.250005









回复

使用道具 举报

lsy1996 发表于 2017-3-9 14:33:12
langke93 发表于 2017-3-9 13:51
性能测试,得有个比较。如果只想知道的话,可以查看这方面的监控。
如果比较的话,看跟谁比较,做什么事情 ...

研究的题目是数据存取优化,要测下IO 内存,但是目前没什么头绪
回复

使用道具 举报

sstutu 发表于 2017-3-9 14:45:19
lsy1996 发表于 2017-3-9 14:33
研究的题目是数据存取优化,要测下IO 内存,但是目前没什么头绪

有点大和广,楼主先详细了解spark,这里面介绍的磁盘 io比较多
Spark初级入门详解2:入门介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12350


回复

使用道具 举报

yuwenge 发表于 2017-3-9 14:47:59

spark.jpg


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条