分享

统计热点数据并预测

pandatyut 发表于 2017-6-19 19:59:46 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 7531
业务需求:现有一个用户访问系统数据的数据集,因为系统硬盘承载能力有限,想根据数据集统计出用户访问的热点数据,将热点数据存储到SSD中,并对以后的用户访问数据进行预测,如果是热点数据,则直接放入SSD;非热点数据直接存在硬盘中。
想问一下应该用什么技术解决,spark ml可不可以

已有(4)人评论

跳转到指定楼层
nextuser 发表于 2017-6-19 20:58:31
这个涉及到机器学习,spark mlib可以的。计算的各个热度指标;采用多元线性回归算法对样本数据进行学习,建立热点预测模型,并根据热点预测模型判断之后的数据是否会成为热点。
回复

使用道具 举报

victorywyl 发表于 2017-6-19 23:02:08
厉害了,word哥
回复

使用道具 举报

pandatyut 发表于 2017-11-6 18:27:53
nextuser 发表于 2017-6-19 20:58
这个涉及到机器学习,spark mlib可以的。计算的各个热度指标;采用多元线性回归算法对样本数据进行学习,建 ...

我现在这些热度指标为访问时间,访问用户,访问类型等不规整的非数值型数据,是不是要对访问数据进行归一化处理?怎么进行归一化呢?
回复

使用道具 举报

醉半城 发表于 2018-1-22 15:17:06
pandatyut 发表于 2017-11-6 18:27
我现在这些热度指标为访问时间,访问用户,访问类型等不规整的非数值型数据,是不是要对访问数据进行归一 ...

数据归一化有很多种方式。
可以参照:https://github.com/kuncle/kuncle ... C%EF%BC%89.markdown
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条