分享

请教问题:实时计算+storm+流处理,谢谢

sunshine_junge 发表于 2014-10-27 13:02:27 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 5 14207


请教些问题:
本人现在在着手写实时计算方面的论文,现在思路还是有点乱,
(1) 关于实时计算有哪些算法可以去研究下;
(2) 如何将相应的算法与storm编程模型结合;
(3)流处理跟批处理在数据流上有哪些重要的区别。
谢谢。一起探讨学习。

QQ: 373161871
email: tomorrow_is_better@yeah.net


欢迎加入about云群90371779322273151432264021 ,云计算爱好者群,亦可关注about云腾讯认证空间||关注本站微信

已有(5)人评论

跳转到指定楼层
bioger_hit 发表于 2014-10-27 17:44:27
本帖最后由 bioger_hit 于 2014-10-27 17:45 编辑
实时算法很少的。
storm本身就是一种实时机制,算法和机制是两码事。
不一定非得实时算法才能用于storm,凡是算法可以应用于任何地方。
算法在程序中也是很常见的,必须我们最常见的排序算法,这个即能用于(实时)storm,又能用于(批量处理)hadoop。
这就是算法与storm编程模型相结合,至于如何结合,在storm中排序,如同在Java中调用一个排序方法,这不就结合起来了吗.如果觉得Java中排序,不算高大上,那么自己就写一个高大上的排序算法。

所以实时计算和实时算法是两码事,如果真想研究,比如实时调度算法 ,实时定位算法。这些都可以研究,但是算法根据应用场景来的,如果你没有具体的场景,这些算法根本用不上。比如你想写一个操作系统,这个操作系统跟实时根本没有任何关系,但是你需要用到实时调度算法。

所以需要区别开实时计算实时算法,是两码事



流式处理,所谓流是源源不断,看下面图。


这是一个我们大家都熟悉的场景


hadoop的处理方式,不能称之为流,因为当数据来了,不能处理,因为mapreduce还没有跑完。hadoop为什么被称之为批处理。因为它一个mapreduce只能处理当前输入的文件的数据。比如日志处理,我想处理去年的数据,那么这个mapreduce只能处理去年的,今年的今天新产生的能不能处理-------不能处理。 想处理该怎么办?另外起一个mapreduce。如果在产生该怎么办,除非在启动一个mapreduce.

再来看storm,处理去年的数据,那么今年今天的能不能处理,能处理,如果吞吐量不够,怎么办?排队,那么我们是否需要在此开启storm的topology,答案是不需要,因为一个topology就能处理。

更多可以参考下面:
让你真正明白什么是storm
什么是流式思维?


回复

使用道具 举报

buildhappy 发表于 2014-10-27 14:22:50
祝好运  顶一个
回复

使用道具 举报

sunshine_junge 发表于 2014-10-28 08:22:47
bioger_hit 发表于 2014-10-27 17:44
本帖最后由 bioger_hit 于 2014-10-27 17:45 编辑
实时算法很少的。
storm本身就是一种实时机制,算法和 ...

非常感谢。
回复

使用道具 举报

heraleign 发表于 2015-4-17 14:32:04
bioger_hit 发表于 2014-10-27 17:44
本帖最后由 bioger_hit 于 2014-10-27 17:45 编辑
实时算法很少的。
storm本身就是一种实时机制,算法和 ...

这个解释是我看过的最牛的解释,最简单易懂!
回复

使用道具 举报

sprite101 发表于 2015-5-11 15:04:33
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条