pig2 发表于 2014-7-19 14:45:42

about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书V1.0.1

about云分析discuz论坛apache日志hadoop大数据项目概要设计说明书





修改记录
版本号更改人/发布人审批人更改日期
V1.0.1About云About云20140-7-19






http://www.aboutyun.com/static/image/hrline/2.gif
系统实现:
项目实现目标:一、统计ip二、统计跳出率三、统计后台登陆ip四、统计搜索量及搜索词五、统计模块点击量六、空间访问量七、统计导航点击量:1.统计论坛社区2.统计图文阅读区3.统计导读4.统计博客5.统计排行榜6.统计分享7.统计群组8.统计广播9.统计微信

一、技术方案:技术方案1:hadoop、mapreduce、hbase、hive、flume、Java web、mysql(oracle)技术方案2:hadoop、spark、hbase、shark、flume、Java web、mysql(oracle)
初始阶段使用方案1
二、详细说明本系统分析about云apache日志,主要统计各个模块ip、用户使用操作系统、浏览器及pv量。日志产生,通过Linux定时器,定时上传文件到flume监控目,然后由flume上传至hdfs。
数据清洗处理方式
1.日志清洗的目的,从原始数据中,得到我们想要的数据清洗方式:(1)通过mapreduce过滤
http://www.aboutyun.com/data/attachment/forum/201407/14/102017xemjwnw3k3fw963o.png
信息查询与统计
清洗数据导入hbase、hive中1.hbase的作用存储、查询数据2.hive统计信息hive统计信息通过sqoop导入关系型数据库mysql中
3.数据展示1.通过Java web或则其它语言展示hbase数据2.通过Java web或则其它语言从mysql中展现数据
环境搭建:参考:hadoop2.2完全分布式最新高可靠安装文档
hbase 0.96整合到hadoop2.2三个节点全分布式安装高可靠文档
hbase0.96与hive0.12整合高可靠文档及问题总结
让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2
hadoop2.2 eclipse链接hdfs(hadoop)

功能任务划分1.通过shell,完成日志传递通过Linux shell命令,将日志传递到flume监控目录要求:能够定时执行
2.通过flume,传递原始数据到hdfsflume的安装,可参考下面内容:让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

3.mapredue对原始数据过滤要求留下内容:1.ip地址2.ip地址个数3.url地址4.用户使用浏览器5.操作系统
4.过滤内容,放入hive及hbase中1.使用hive统计如下内容一、统计ip、访问次数二、统计跳出率最高以及最低个20条三、统计后台登陆ip四、统计搜索量及搜索词五、统计模块ip、及访问次数六、空间访问量ip及访问次数七、统计导航点击量:(访问次数、及ip地址)1.统计论坛社区2.统计图文阅读区3.统计导读4.统计博客5.统计排行榜6.统计分享7.统计群组8.统计广播9.统计微信
5.展示1.使用javaweb展示hbase过滤数据,用于查询2.hive统计结果通过sqoop导入mysql中,通过其他语言(Java web),展示统计结果




shlmw 发表于 2014-10-15 17:50:18

贪心一点点的问,能开源源代码吗? 嘿嘿

pig2 发表于 2014-10-15 18:07:22

shlmw 发表于 2014-10-15 17:50
贪心一点点的问,能开源源代码吗? 嘿嘿

目前还没有完毕,可以从这里用git下载

git://code.csdn.net/bj278595437/aboutyunhadoop.git

https://code.csdn.net/bj278595437/aboutyunhadoop.git

break-spark 发表于 2014-11-3 16:25:37

不错,学习了

howtodown 发表于 2014-11-3 20:40:01

break-spark 发表于 2014-11-3 16:25
不错,学习了

此地址为查看地址
https://code.csdn.net/bj278595437/aboutyunhadoop/tree/master

break-spark 发表于 2014-11-4 18:20:33

howtodown 发表于 2014-11-3 20:40
此地址为查看地址
https://code.csdn.net/bj278595437/aboutyunhadoop/tree/master

我安装了git客户端,然后PULL咱们这个项目,结果如图,说没权限,是我密钥不对,还是

hery 发表于 2014-12-9 17:56:50

不错。。。。。。

ggggying12 发表于 2017-2-23 15:07:43

非常感谢分享
页: [1]
查看完整版本: about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书V1.0.1