storm的并行度概念(workers、executors、ta

2018-03-26  本文已影响68人  6cc89d7ec09f

转载:http://blog.chinaunix.net/uid-28379365-id-5017449.html
storm中要配置并行度,就必须要明白 workers、executors、tasks三个的区别:

Workers (JVMs): 在一个节点上可以运行一个或多个独立的JVM 进程。一个Topology可以包含一个或多个worker(并行的跑在不同的machine上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology;worker processes的数目, 可以通过配置文件和代码中配置, worker就是执行进程, 所以考虑并发的效果, 数目至少应该大亍machines的数目。

Executors (threads): 在一个worker JVM进程中运行着多个Java线程。一个executor线程可以执行一个或多个tasks.但一般默认每个executor只执行一个task。一个worker可用包含一个或多个executor, 每个component (spout或bolt)至少对应于一个executor, 所以可以说executor执行一个compenent的子集, 同时一个executor只能对应于一个component;executor的数目, component的并发线程数只能在代码中配置(通过setBolt和
setSpout的参数)。

Tasks(bolt/spout instances):Task就是具体的处理逻辑对象,每一个Spout和Bolt会被当作很多task在整个集群里面执行。每一个task对应到一个线程,而stream grouping则是定义怎么从一堆task发射tuple到另外一堆task。你可以调用TopologyBuilder.setSpout和TopBuilder.setBolt来设置并行度 — 也就是有多少个task,tasks的数目, 可以不配置, 默认和executor1:1, 也可以通过setNumTasks()配置。

下面附上一段程序来说明:

 TopologyBuilder builder = new TopologyBuilder();

builder.setSpout("spout", new RandomSentenceSpout(), 5).setNumTasks(4);    //executors数目设置为5,即线程数为5,task为4
builder.setBolt("split", new SplitSentence(), 8).shuffleGrouping("spout");  //executors数目设置为8,即线程数为8,task默认为1
builder.setBolt("count", new WordCount(), 4).fieldsGrouping("spout", new Fields("ming"));   //executors数目设置为4,即线程数为4

Config conf = new Config();
conf.setDebug(false);

conf.setNumWorkers(3);                                     //这里是设置Topology的Workers数
StormSubmitter.submitTopology("word-count", conf, builder.createTopology());

executors和tasks

转载 https://blog.csdn.net/doctor_who2004/article/details/47709945

请始终记得标题:executors和tasks(线程和实例),executors代表线程概念,tasks代表spout或bolt实例。

Storm默认会为每个组成(spout/bolt)创建一个任务(task),默认一个任务运行被一个线程(executor)调用。

setSpout(String id, IRichSpout spout,Number parallelism_hint)

上面的配置表示:拓扑要创建parallelism_hint个线程,对应parallelism_hint任务(tasks),每一个任务被所属于自己的线程(executor)调用。即任务数目和线程数目一样。

setSpout(String id, IRichSpout spout,Number parallelism_hint).setNumTasks(Number val)

上面的配置表示拓扑配置val个任务,这val个任务被平均分配给parallelism_hint个线程调用。(val/parallelism_hint平均分配)。

练习

截取官网上的一张图,看看一个进程有几个线程?


image.png

配置代码如下:

Config conf = new Config();
conf.setNumWorkers(2); // use two worker processes

topologyBuilder.setSpout("blue-spout", new BlueSpout(), 2); // set parallelism hint to 2

topologyBuilder.setBolt("green-bolt", new GreenBolt(), 2)
               .setNumTasks(4)
               .shuffleGrouping("blue-spout");

topologyBuilder.setBolt("yellow-bolt", new YellowBolt(), 6)
               .shuffleGrouping("green-bolt");

StormSubmitter.submitTopology(
        "mytopology",
        conf,
        topologyBuilder.createTopology()
    );

setNumWorkers:表示设置了2个worker,即2个进程
1个parallelism_hint就代表1个线程
则总共有2+2+6=10个线程
每个进程平均分配,则每个进程有5个线程
继续看下去
对于Green-bolt有2个线程,但是创建了4个task,则每个线程执行2个task.

上一篇下一篇

猜你喜欢

热点阅读