分享

【求助】关于实时指标的业务实现

lixiaoliang7 发表于 2015-1-15 10:15:54 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 20749
实时指标业务需求之一:根据实时日志来统计每天/每小时的顾客数量


使用技术:
spark streaming,redis。  流入的数据是由flume推送的

逻辑:
既然是按天和小时维度统计顾客数量,那么肯定是需要按天和小时做一下去重。
使用sparkstreaming每20秒做一下数据处理,开始处理数据前,首先从redis中获取一下元数据,判断一下流入的顾客是否是合法的。
如果是合法的,那么再将顾客数据以天/小时为key存储至redis中,value结构是set,这样利用redis来进行去重。

然后每次sparkstreaming20秒数据处理结束前,对于每天/每小时的数据做一下scard计算数量。

我的问题是这样的:
因为现在这块的业务由我一个人独自摸索,所以不太清楚这样做是否合理,希望大家能给个建议

谢谢
hark
我的博客 http://www.cnblogs.com/hark0623

已有(2)人评论

跳转到指定楼层
starrycheng 发表于 2015-1-15 12:01:41
楼主能否画一个图,感觉没有体现flume的作用。思维有些跳跃。

给楼主总结下:

从redis里面读取数据,通过sparkstreaming做一定的处理,在放到redis里。感觉介绍的还不是太详细。


实时的框架挺多的,下面可参考,希望对楼主有所帮助,扩展思路

从Storm和Spark学习流式实时分布式计算的设计


storm实时流计算应用开发框架-天罡从需求到技术方案介绍

大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合


实时处理方案架构 - Storm实时处理
回复

使用道具 举报

starrycheng 发表于 2015-1-15 12:08:16

这也有一篇帖子
Spark Streaming实时计算框架介绍

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条