about云分析discuz论坛
apache日志hadoop大数据项目
概要设计说明书
修改记录
系统实现:
项目实现目标:
一、统计ip
二、统计跳出率
三、统计后台登陆ip
四、统计搜索量及搜索词
五、统计模块点击量
六、空间访问量
七、统计导航点击量:
1.统计论坛社区
2.统计图文阅读区
3.统计导读
4.统计博客
5.统计排行榜
6.统计分享
7.统计群组
8.统计广播
9.统计微信
一、技术方案:
技术方案1:hadoop、mapreduce、hbase、hive、flume、Java web、mysql(oracle)
技术方案2:hadoop、spark、hbase、shark、flume、Java web、mysql(oracle)
初始阶段使用方案1
二、详细说明
本系统分析about云apache日志,主要统计各个模块ip、用户使用操作系统、浏览器及pv量。
日志产生,通过Linux定时器,定时上传文件到flume监控目,然后由flume上传至hdfs。
数据清洗处理方式
1.日志清洗的目的,从原始数据中,得到我们想要的数据清洗方式:
(1)通过mapreduce过滤
信息查询与统计
清洗数据导入hbase、hive中
1.hbase的作用
存储、查询数据
2.hive统计信息
hive统计信息通过sqoop导入关系型数据库mysql中
3.数据展示
1.通过Java web或则其它语言展示hbase数据
2.通过Java web或则其它语言从mysql中展现数据
环境搭建:
参考:
功能任务划分
1.通过shell,完成日志传递
通过Linux shell命令,将日志传递到flume监控目录
要求:能够定时执行
2.通过flume,传递原始数据到hdfs
3.mapredue对原始数据过滤
要求留下内容:
1.ip地址
2.ip地址个数(去掉)
2.增加时间
3.url地址
4.用户使用浏览器
5.操作系统(去掉)
4.过滤内容,放入hive及hbase中
1.使用hive统计如下内容
一、统计ip
二、统计跳出率
三、统计后台登陆ip
四、统计搜索量及搜索词
五、统计模块点击量
六、空间访问量
七、统计导航点击量:
1.统计论坛社区
2.统计图文阅读区
3.统计导读
4.统计博客
5.统计排行榜
6.统计分享
7.统计群组
8.统计广播
9.统计微信
5.展示
1.使用javaweb展示hbase过滤数据,用于查询
2.hive统计结果通过sqoop导入mysql中,通过其他语言(Java web),展示统计结果