about云分析discuz论坛 apache日志hadoop大数据项目 概要设计说明书
修改记录
系统实现:
项目实现目标: 一、统计ip 二、统计跳出率 三、统计后台登陆ip 四、统计搜索量及搜索词 五、统计模块点击量 六、空间访问量 七、统计导航点击量: 1.统计论坛社区 2.统计图文阅读区 3.统计导读 4.统计博客 5.统计排行榜 6.统计分享 7.统计群组 8.统计广播 9.统计微信
一、技术方案: 技术方案1:hadoop、mapreduce、hbase、hive、flume、Java web、mysql(oracle) 技术方案2:hadoop、spark、hbase、shark、flume、Java web、mysql(oracle)
初始阶段使用方案1
二、详细说明 本系统分析about云apache日志,主要统计各个模块ip、用户使用操作系统、浏览器及pv量。 日志产生,通过Linux定时器,定时上传文件到flume监控目,然后由flume上传至hdfs。
数据清洗处理方式
1.日志清洗的目的,从原始数据中,得到我们想要的数据清洗方式: (1)通过mapreduce过滤
信息查询与统计
清洗数据导入hbase、hive中 1.hbase的作用 存储、查询数据 2.hive统计信息 hive统计信息通过sqoop导入关系型数据库mysql中
3.数据展示 1.通过Java web或则其它语言展示hbase数据 2.通过Java web或则其它语言从mysql中展现数据
环境搭建: 参考:
功能任务划分 1.通过shell,完成日志传递 通过Linux shell命令,将日志传递到flume监控目录 要求:能够定时执行
2.通过flume,传递原始数据到hdfs 3.mapredue对原始数据过滤 要求留下内容: 1.ip地址 2.ip地址个数 3.url地址 4.用户使用浏览器 5.操作系统
4.过滤内容,放入hive及hbase中 1.使用hive统计如下内容 一、统计ip、访问次数 二、统计跳出率最高以及最低个20条 三、统计后台登陆ip 四、统计搜索量及搜索词 五、统计模块ip、及访问次数 六、空间访问量ip及访问次数 七、统计导航点击量:(访问次数、及ip地址) 1.统计论坛社区 2.统计图文阅读区 3.统计导读 4.统计博客 5.统计排行榜 6.统计分享 7.统计群组 8.统计广播 9.统计微信
5.展示 1.使用javaweb展示hbase过滤数据,用于查询 2.hive统计结果通过sqoop导入mysql中,通过其他语言(Java web),展示统计结果
|