搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
面试区
›
面试过程被问到实时流处理的问题,高手请进!
0
2
0
分享
面试过程被问到实时流处理的问题,高手请进!
xp007
发表于 2016-8-23 19:51:40
[显示全部楼层]
阅读模式
关闭右栏
2
15594
实时数据流
日志格式:
uid logintime *** *** ***
需求 计算:
8月1号新增的用户量 (比如说有70)
8月2号相比8月1号新增有多少用户量。
8月3号相比8月2号新增有多少用户量。
....
....
当前相比昨天新增有多少用户量。
提示:
每个用户可能一天登录多次系统,也有可能不登录。
使用你所了解的实时框架来计算。
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(2)人评论
电梯直达
正序浏览
nextuser
发表于 2016-8-23 20:02:46
这个其实传统程序就可以实现。首先需要具有这个功底。会传统编程实现,然后在套用大数据架构就可以了。
如果想实时可以使用这个框架flume-ng+Kafka+Storm+HDFS
提供参考:
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6855
当然需要结合自己的实际情况。
也可以使用spark,不过这方面的资料少一些
回复
使用道具
举报
显身卡
liuzhixin137
发表于 2016-8-25 10:49:49
这个看对实时性的要求吧,要求不高可以用spark streaming
kafka + spark streaming
看看数据量大小,数据量不大,每条数据可以写到hive,然后每天凌晨 跑一条hql,统计所有的用户id,当然是去重的,减掉昨天的总用户量,当然就是一天新增的用户量。
如果数据量很大,可以放到hbase,照样按照这样来做。
还要看统计别的指标是否方便简洁 来选取合适的组件。
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
活跃会员
经常参与各类话题的讨论,发帖内容较有主见
热心会员
经常帮助其他会员答疑
发表新帖
xp007
新手上路
关注
主题
帖子
粉丝
TA的主题
面试过程被问到实时流处理的问题,高手请进!
2016-8-23
24小时热文
Spark机器学习
Spark机器学习算法、源码及实战详解
《深度实践Spark机器学习(吴茂贵)》高清
《Spark机器学习第2版》高清中文PDF
像高手一样发言:七种常见工作场景的说话之
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈