分享

storm的拓扑deecutors大小设计

大神们,有个问题咨询下大家设计完拓扑后,bolt的executors和tasks数应该如何设计?
测试发现有的bolt是在20能达到最佳速度,有的是在30能达到最佳速度,这个大小应该如何判断?
有理论解释么?是和机器性能挂钩么?

已有(6)人评论

跳转到指定楼层
qcbb001 发表于 2016-12-8 09:39:14
骑士叔叔 发表于 2016-12-8 09:04
感谢您的回答。
现在的疑问就是大小的设置,这块儿比较迷茫,发现不同的bolt的最佳Executor数竟然不一样 ...
序号3
上面我们看到了worker和excutor都是jvm进程。因此jvm的配置决定了,一台机器在同样的配置下,能运行多少worker。
默认情况下,Storm启动worker进程时,JVM的最大内存是768M。
但在使用过程中,由于会在Bolt中加载大量数据,768M内存无法满足需求,会导致内存溢出程序崩溃。

可以通过在Strom的配置文件storm.yaml中设置worker的启动参数:配置为2G
worker.childopts: "-Xmx2048m"
该参数会在启动时传递给JVM,然后就可以在worker中使用2048m内存了。

当然你也可疑根据自己的情况,配置为其它的。
所以从上面看出,启动多少worker在于你对jvm的配置。

进一步总结:
也就是启动多少worker,数量的多少不是关键,决定性因素是jvm的配置。至于什么是最佳的,就如同楼主提出的一样,有的是20,有的是30,需自己调试下。
回复

使用道具 举报

qcbb001 发表于 2016-12-7 22:13:34
这个问题比较复杂

序号1
首先需要弄懂基本的知识:

storm中要配置并行度,就必须要明白 workers、executors、tasks三个的区别:

Workers (JVMs): 在一个节点上可以运行一个或多个独立的JVM 进程。一个Topology可以包含一个或多个worker(并行的跑在不同的machine上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology;worker processes的数目, 可以通过配置文件和代码中配置, worker就是执行进程, 所以考虑并发的效果, 数目至少应该大亍machines的数目。

Executors (threads): 在一个worker JVM进程中运行着多个Java线程。一个executor线程可以执行一个或多个tasks.但一般默认每个executor只执行一个task。一个worker可用包含一个或多个executor, 每个component (spout或bolt)至少对应于一个executor, 所以可以说executor执行一个compenent的子集, 同时一个executor只能对应于一个component;executor的数目, component的并发线程数只能在代码中配置(通过setBolt和
setSpout的参数)。

Tasks(bolt/spout instances):Task就是具体的处理逻辑对象,每一个Spout和Bolt会被当作很多task在整个集群里面执行。每一个task对应到一个线程,而stream grouping则是定义怎么从一堆task发射tuple到另外一堆task。你可以调用TopologyBuilder.setSpout和TopBuilder.setBolt来设置并行度 — 也就是有多少个task,tasks的数目, 可以不配置, 默认和executor1:1, 也可以通过setNumTasks()配置。




回复

使用道具 举报

qcbb001 发表于 2016-12-7 22:14:59

序号2
1. Worker(进程)
2. Executor(线程)
3. Task

下图简要描述了这3者之间的关系:
1.png

上图和下面这张图一样

2.png

回复

使用道具 举报

qcbb001 发表于 2016-12-7 22:15:42
后面有时间在总结
回复

使用道具 举报

骑士叔叔 发表于 2016-12-8 09:04:23
qcbb001 发表于 2016-12-7 22:15
后面有时间在总结

感谢您的回答。
现在的疑问就是大小的设置,这块儿比较迷茫,发现不同的bolt的最佳Executor数竟然不一样。
这个就比较尴尬了,而且也没法解释,希望帮忙解答,谢谢。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条