搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Storm
›
storm概念名词汇总及相关说明
0
4
3
分享
storm概念名词汇总及相关说明
xuanxufeng
发表于 2016-11-25 14:21:07
[显示全部楼层]
只看大图
阅读模式
关闭右栏
4
10761
问题导读
1.你认为storm有哪些概念?
2.本文讲了哪些概念?
3.
Nimbus的作用是什么?
Apache Storm 是由Twitter开源的分布式实时计算系统。Storm可以非常容易并且可靠的处理无限的数据流。对比Hadoop的批处理,Storm是一个实时的、分布式的、具备高容错的计算系统。Storm应用可以使用不同的编程语言来进行开发。
-Storm基本体系结构图-
Nimbus和Supervisor之间的通信依靠Zookeeper来完成,并且Nimbus进程和Supervisor都是快速失败和无状态的。所有的状态要么在Zookeeper里面,要么在本地磁盘上。这就意味着你可以用Kill -9 来杀死 Nimbus和Supervisor进程,然后在重启它们,它们可以继续工作,就像什么也没发生。这个设计使Storm具有非常高的稳定性。
核心概念
在Storm中有一些核心基本概念,包括
Topology、Nimbus、Supervisor、Worker、Executor、Task、Spout、Bolt、Tuple、Stream、Stream分组(grouping)
等。
Topology
: 一个实时计算应用程序逻辑上被封装在Topology对象中,类似Hadoop中的作业。与作业不同的是,Topology会一直运行直到显式地杀死它。
Nimbus
: 负责资源分配和任务调度,类似Hadoop中的JobTracker。
Supervisor
:负责接受Nimbus分配的任务,启动和停止属于自己管理的Worker进程,类似Hadoop中的TaskTracker。
Worker
: 运行具体处理组件逻辑的进程。
Executor
: Storm 0.8之后,Executor为Worker进程中的具体的物理线程,同一个Spout/Bolt的Task可能会共享一个物理线程,一个Executor中只能运行隶属于同一个Spout/Bolt的Task。
Task
: 每一个Spout/Bolt具体要做的工作,也是各个节点之间进行分组的单位。
Spout
: 在Topology中产生源数据流的组件。通常Spout获取数据源的数据,然后调用nextTuple函数,发射数据供Bolt消费。
Bolt
: 在Topology中接受Spout的数据然后执行处理的组件,Bolt可以执行过滤,函数操作,合并,写数据库等任何操作。Bolt在接收到消息后会调用execute函数,用户可在其中执行自己想要的操作。
Tuple
: 消息传递的单元。
Stream
: 源源不断传递的Tuple组成了Stream。
Stream分组
:即消息的分区(partition)方法。Storm中提供若干种实用的分组方式。包括Shuffle、Fields、All、Global、None、Direct、Local or shuffle等。
Storm的Stream分组方式
Storm有7种内置的分组方式,也可以通过实现CustomStreamGrouping接口来定义自己的分组。
(1)
Shuffle分组
:Task中的数据随机分配,可以保证同一级Bolt上的每个Task处理的Tuple数量一致。
(2)
Fields分组
: 根据Tuple中的某一个Filed或者多个Filed的值来划分。比如Stream根据user-id的值来分组,具有相同的user-id值的Tuple会被分发到相同的Task中。
(3)
All分组
: 所有的Tuple都会分发到所有的Task上。
(4)
Global分组
: 整个Stream会选择一个Task作为分发的目的地,通常是具有最新ID的Task。
(5)
None分组
: 也就是你不关心如何在Task中做Stream的分发,目前等同于Shuffle分组。
(6)
Direct分组
: 这是一种特殊的分组方式,也就是产生数据的Spout/Bolt自己明确决定这个Tuple被Bolt的哪些Task所消费。如果Direct分组,需要使用OutputCollector的emitDirect方法来实现。
(7)
Local or shuffle分组
:如果目标Bolt中的一个或者多个Task和当前产生数据的Task在同一个Worker进程中,那么就走内部的线程间通信,将Tuple直接发给在当前Worker进程中的目的Task。否则,同Shuffle分组。
来自:csdn
作者:烽燧
关注公众号,获取大数据、人工智能20套、区块链资源5阶段等资源,随时更新,获取最新技术资源
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(4)人评论
电梯直达
正序浏览
空空未空
发表于 2016-11-26 09:45:25
比较基础的strom知识,辛苦楼主总结
回复
使用道具
举报
显身卡
zpjoe
发表于 2016-12-7 11:31:38
新手看看很好,谢谢
回复
使用道具
举报
显身卡
xianzhi558
发表于 2016-12-9 10:53:01
谢谢分享~~~~
回复
使用道具
举报
显身卡
亮哥
发表于 2016-12-24 14:30:08
all分组那张图片少了一条线。
回复
使用道具
举报
显身卡
还有一些帖子被系统自动隐藏,点此展开
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
xuanxufeng
实习版主
关注
821
主题
1223
帖子
173
粉丝
TA的主题
GPU介绍及TensorFlow如何使用GPU跑程序
2018-6-14
深入了解spark sql的高级性能
2018-6-14
openstack--L版本安装文档
2018-6-12
Storm—基于拓扑的流数据实时计算系统
2018-6-12
Hadoop权威指南.大数据的存储与分析.第4版.修订版.升级版
2018-6-11
24小时热文
矩阵分析引论罗家洪(第四版)
互联网大厂年终福利曝光:看看别人家老板怎
像高手一样发言:七种常见工作场景的说话之
携程允许员工春节回乡办公2个月
数据治理实施方案
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈