请教问题：实时计算+storm+流处理，谢谢

about云腾讯认证空间

请教些问题：
本人现在在着手写实时计算方面的论文，现在思路还是有点乱，
（1）关于实时计算有哪些算法可以去研究下；
（2）如何将相应的算法与storm编程模型结合；
（3）流处理跟批处理在数据流上有哪些重要的区别。
谢谢。一起探讨学习。

QQ: 373161871
email: tomorrow_is_better@yeah.net

bioger_hit · 发表于 2014-10-27 17:44:27

本帖最后由 bioger_hit 于 2014-10-27 17:45 编辑
实时算法很少的。
storm本身就是一种实时机制，算法和机制是两码事。
不一定非得实时算法才能用于storm，凡是算法可以应用于任何地方。
算法在程序中也是很常见的，必须我们最常见的排序算法，这个即能用于（实时）storm，又能用于（批量处理）hadoop。
这就是算法与storm编程模型相结合，至于如何结合，在storm中排序，如同在Java中调用一个排序方法，这不就结合起来了吗.如果觉得Java中排序，不算高大上，那么自己就写一个高大上的排序算法。

所以实时计算和实时算法是两码事，如果真想研究，比如实时调度算法，实时定位算法。这些都可以研究，但是算法是根据应用场景来的，如果你没有具体的场景，这些算法根本用不上。比如你想写一个操作系统，这个操作系统跟实时根本没有任何关系，但是你需要用到实时调度算法。

所以需要区别开实时计算和实时算法，是两码事

流式处理，所谓流是源源不断，看下面图。

这是一个我们大家都熟悉的场景

hadoop的处理方式，不能称之为流，因为当数据来了，不能处理，因为mapreduce还没有跑完。hadoop为什么被称之为批处理。因为它一个mapreduce只能处理当前输入的文件的数据。比如日志处理，我想处理去年的数据，那么这个mapreduce只能处理去年的，今年的今天新产生的能不能处理-------不能处理。 想处理该怎么办？另外起一个mapreduce。如果在产生该怎么办，除非在启动一个mapreduce.

再来看storm，处理去年的数据，那么今年今天的能不能处理，能处理，如果吞吐量不够，怎么办？排队，那么我们是否需要在此开启storm的topology，答案是不需要，因为一个topology就能处理。

更多可以参考下面：
让你真正明白什么是storm
什么是流式思维？