分享

about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书V1.0.1

pig2 发表于 2014-7-19 14:45:42 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 7 22132
about云分析discuz论坛
apache日志hadoop大数据项目
概要设计说明书






修改记录
  
版本号
  
更改人/发布人
审批人
更改日期
V1.0.1
About
About
20140-7-19







系统实现:

项目实现目标:
一、统计ip
二、统计跳出率
三、统计后台登陆ip
四、统计搜索量及搜索词
五、统计模块点击量
六、空间访问量
七、统计导航点击量:
1.统计论坛社区
2.统计图文阅读区
3.统计导读
4.统计博客
5.统计排行榜
6.统计分享
7.统计群组
8.统计广播
9.统计微信


一、技术方案:
技术方案1:hadoop、mapreduce、hbase、hive、flume、Java web、mysql(oracle)
技术方案2:hadoop、spark、hbase、shark、flume、Java web、mysql(oracle)

初始阶段使用方案1

二、详细说明
本系统分析about云apache日志,主要统计各个模块ip、用户使用操作系统、浏览器及pv量。
日志产生,通过Linux定时器,定时上传文件到flume监控目,然后由flume上传至hdfs。

数据清洗处理方式

1.日志清洗的目的,从原始数据中,得到我们想要的数据
清洗方式:
(1)通过mapreduce过滤


信息查询与统计
清洗数据导入hbase、hive中
1.hbase的作用
存储、查询数据
2.hive统计信息
hive统计信息通过sqoop导入关系型数据库mysql中

3.数据展示
1.通过Java web或则其它语言展示hbase数据
2.通过Java web或则其它语言从mysql中展现数据

环境搭建:
参考:

功能任务划分
1.通过shell,完成日志传递
通过Linux shell命令,将日志传递到flume监控目录
要求:能够定时执行

2.通过flume,传递原始数据到hdfs
3.mapredue对原始数据过滤
要求留下内容:
1.ip地址
2.ip地址个数
3.url地址
4.用户使用浏览器
5.操作系统

4.过滤内容,放入hive及hbase中
1.使用hive统计如下内容
一、统计ip、访问次数
二、统计跳出率最高以及最低个20条
三、统计后台登陆ip
四、统计搜索量及搜索词
五、统计模块ip、及访问次数
六、空间访问量ip及访问次数
七、统计导航点击量:(访问次数、及ip地址
1.统计论坛社区
2.统计图文阅读区
3.统计导读
4.统计博客
5.统计排行榜
6.统计分享
7.统计群组
8.统计广播
9.统计微信

5.展示
1.使用javaweb展示hbase过滤数据,用于查询
2.hive统计结果通过sqoop导入mysql中,通过其他语言(Java web),展示统计结果





已有(7)人评论

跳转到指定楼层
shlmw 发表于 2014-10-15 17:50:18
贪心一点点的问,能开源源代码吗? 嘿嘿
回复

使用道具 举报

pig2 发表于 2014-10-15 18:07:22
shlmw 发表于 2014-10-15 17:50
贪心一点点的问,能开源源代码吗? 嘿嘿
目前还没有完毕,可以从这里用git下载

git://code.csdn.net/bj278595437/aboutyunhadoop.git

https://code.csdn.net/bj278595437/aboutyunhadoop.git
回复

使用道具 举报

break-spark 发表于 2014-11-3 16:25:37
不错,学习了
回复

使用道具 举报

howtodown 发表于 2014-11-3 20:40:01
此地址为查看地址
https://code.csdn.net/bj278595437/aboutyunhadoop/tree/master
回复

使用道具 举报

break-spark 发表于 2014-11-4 18:20:33
howtodown 发表于 2014-11-3 20:40
此地址为查看地址
https://code.csdn.net/bj278595437/aboutyunhadoop/tree/master

我安装了git客户端,然后PULL咱们这个项目,结果如图,说没权限,是我密钥不对,还是

git_recored

git_recored
回复

使用道具 举报

ggggying12 发表于 2017-2-23 15:07:43
非常感谢分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条