搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
Spark
›
【求助】关于实时指标的业务实现
0
2
0
分享
【求助】关于实时指标的业务实现
lixiaoliang7
发表于 2015-1-15 10:15:54
[显示全部楼层]
阅读模式
关闭右栏
2
20749
About云VIP帮助找工作和提升
实时指标业务需求之一:根据实时日志来统计每天/每小时的顾客数量
使用技术:
spark streaming,redis。 流入的数据是由flume推送的
逻辑:
既然是按天和小时维度统计顾客数量,那么肯定是需要按天和小时做一下去重。
使用sparkstreaming每20秒做一下数据处理,开始处理数据前,首先从redis中获取一下元数据,判断一下流入的顾客是否是合法的。
如果是合法的,那么再将顾客数据以天/小时为key存储至redis中,value结构是set,这样利用redis来进行去重。
然后每次sparkstreaming20秒数据处理结束前,对于每天/每小时的数据做一下scard计算数量。
我的问题是这样的:
因为现在这块的业务由我一个人独自摸索,所以不太清楚这样做是否合理,希望大家能给个建议
谢谢
hark
我的博客 http://www.cnblogs.com/hark0623
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(2)人评论
电梯直达
正序浏览
starrycheng
发表于 2015-1-15 12:01:41
楼主能否画一个图,感觉没有体现flume的作用。思维有些跳跃。
给楼主总结下:
从redis里面读取数据,通过sparkstreaming做一定的处理,在放到redis里。感觉介绍的还不是太详细。
实时的框架挺多的,下面可参考,希望对楼主有所帮助,扩展思路
从Storm和Spark学习流式实时分布式计算的设计
storm实时流计算应用开发框架-天罡从需求到技术方案介绍
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
实时处理方案架构 - Storm实时处理
回复
使用道具
举报
显身卡
starrycheng
发表于 2015-1-15 12:08:16
这也有一篇帖子
Spark Streaming实时计算框架介绍
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
发表新帖
lixiaoliang7
中级会员
关注
23
主题
153
帖子
5
粉丝
我的博客 http://www.cnblogs.com/hark0623
TA的主题
请问kylin如何做增量cube?
2016-6-12
【求助】CDH5.3中balancer报错
2016-6-4
【求助】关于实时指标的业务实现
2015-1-15
【解决】 我的CDH中不产生Container日志
2015-1-8
【求助】flume中source的event问题
2014-12-30
24小时热文
Flink CDC:新一代实时数据集成框架
蚂蚁面试就是不一样
如何高效学习
人情世故速查速用大全集
框架思维
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈