本帖最后由 nettman 于 2014-4-29 21:25 编辑
本文可以作为一个小导航
一、实时计算一些基本概念 http://www.cnblogs.com/panfeng412/archive/2011/10/28/2227195.html
二、早期产品 1. IBM的StreamBase: StreamBase是IBM开发的一款商业流式计算系统,在金融行业和政府部门使用 2. Borealis:Brandeis University、Brown University和MIT合作开发的一个分布式流式系统,由之前的流式系统Aurora、Medusa演化而来,学术研究的一个产品,08年已经停止维护
三、近期产品: 1.Yahoo的S4:S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统,Yahoo!开发S4系统,主要是为了解决:搜索广告的展现、处理用户的点击反馈。
2. Twitter实时计算 2.1 Twitter的storm:Storm是一个分布式的、容错的实时计算系统 Storm用途:可用于处理消息和更新数据库(流处理),在数据流上进行持续查询,并以流的形式返回结果到客户端(持续计算),并行化一个类似实时查询的热点查询(分布式的RPC)。
2.2. Twitter的Rainbird:Rainbird 是一款分布式实时统计系统, Rainbird可以用于实时数据的统计:(1)统计网站中每一个页面,域名的点击次数,(2)内部系统的运行监控(统计被监控服务器的运行状态),(3) 记录最大值和最小值 中文介绍: http://www.cnblogs.com/gpcuster/archive/2011/02/06/1949466.html
3.Facebook 的Puma:facebook使用puma和Habase相结合来处理实时数据,另外facebook发表一篇利用HBase/Hadoop进行实时数据处理的论文(Apache Hadoop Goes Realtime at Facebook),通过一些实时性改造,让批处理计算平台也具备实时计算的能力。
4.淘宝的实时计算、流式处理
4.1银河流数据处理平台:通用的流数据实时计算系统,以实时数据产出的低延迟、高吞吐和复用性为初衷和目标,采用actor模型构建分布式流数据计算框架(底层基于akka),功能易扩展、部分容错、数据和状态可监控。 银河具有处理实时流数据(如TimeTunnel收集的实时数据)和静态数据(如本地文件、HDFS文件)的能力,能够提供灵活的实时数据输出,并提供自定义的数据输出接口以便扩展实时计算能力。 银河目前主要是为魔方提供实时的交易、浏览和搜索日志等数据的实时计算和分析。
4.2.基于storm的流式处理,统计计算、持续计算、实时消息处理。
4.3利用Habase实现的online应用。
5.另外还有一些其他实时计算系统: Esper:esper可以用在股票系统、风险监控系统等等要求实时性比较高的系统中 Yahoo! s4和Twitter storm的粗略比较: http://www.blogjava.net/killme2008/archive/2011/11/08/363238.html
|