pig2 发表于 2014-7-16 12:52:45

about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书

本帖最后由 pig2 于 2014-8-5 19:21 编辑

about云分析discuz论坛apache日志hadoop大数据项目概要设计说明书





修改记录
版本号更改人/发布人审批人更改日期
V1.0.0About云About云20140-7-16



http://www.aboutyun.com/static/image/hrline/2.gif
系统实现:
项目实现目标:一、统计ip二、统计跳出率三、统计后台登陆ip四、统计搜索量及搜索词五、统计模块点击量六、空间访问量七、统计导航点击量:1.统计论坛社区2.统计图文阅读区3.统计导读4.统计博客5.统计排行榜6.统计分享7.统计群组8.统计广播9.统计微信

一、技术方案:技术方案1:hadoop、mapreduce、hbase、hive、flume、Java web、mysql(oracle)技术方案2:hadoop、spark、hbase、shark、flume、Java web、mysql(oracle)
初始阶段使用方案1
二、详细说明本系统分析about云apache日志,主要统计各个模块ip、用户使用操作系统、浏览器及pv量。日志产生,通过Linux定时器,定时上传文件到flume监控目,然后由flume上传至hdfs。
数据清洗处理方式
1.日志清洗的目的,从原始数据中,得到我们想要的数据清洗方式:(1)通过mapreduce过滤
http://www.aboutyun.com/data/attachment/forum/201407/14/102017xemjwnw3k3fw963o.png
信息查询与统计
清洗数据导入hbase、hive中1.hbase的作用存储、查询数据2.hive统计信息hive统计信息通过sqoop导入关系型数据库mysql中
3.数据展示1.通过Java web或则其它语言展示hbase数据2.通过Java web或则其它语言从mysql中展现数据
环境搭建:参考:hadoop2.2完全分布式最新高可靠安装文档
hbase 0.96整合到hadoop2.2三个节点全分布式安装高可靠文档
hbase0.96与hive0.12整合高可靠文档及问题总结
让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2
hadoop2.2 eclipse链接hdfs(hadoop)

功能任务划分1.通过shell,完成日志传递通过Linux shell命令,将日志传递到flume监控目录要求:能够定时执行
2.通过flume,传递原始数据到hdfsflume的安装,可参考下面内容:让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

3.mapredue对原始数据过滤要求留下内容:1.ip地址2.ip地址个数(去掉)2.增加时间3.url地址4.用户使用浏览器5.操作系统(去掉)
4.过滤内容,放入hive及hbase中1.使用hive统计如下内容一、统计ip二、统计跳出率三、统计后台登陆ip四、统计搜索量及搜索词五、统计模块点击量六、空间访问量七、统计导航点击量:1.统计论坛社区2.统计图文阅读区3.统计导读4.统计博客5.统计排行榜6.统计分享7.统计群组8.统计广播9.统计微信
5.展示1.使用javaweb展示hbase过滤数据,用于查询2.hive统计结果通过sqoop导入mysql中,通过其他语言(Java web),展示统计结果




lbwahoo 发表于 2014-7-17 21:31:40

{:soso_e100:}

x5136160 发表于 2014-7-17 23:38:10

学习学习....

sunshine_junge 发表于 2014-7-18 10:50:01

{:soso_e179:}

duoduo2009 发表于 2014-8-13 10:04:25

学习一下,感谢老大

xieyongxiong 发表于 2014-8-14 17:10:32

好资料,学习

bwboy 发表于 2014-9-29 16:10:44

{:soso_e104:}

quenlang 发表于 2014-10-2 21:54:48

顶呱呱,一定要学习一下

永无止进 发表于 2014-10-27 09:55:02

经验是最宝贵的财富啊

break-spark 发表于 2014-11-3 16:19:30

博主,Hbase的数据是需要导入那,还是在系统执行时候插入
页: [1] 2 3 4
查看完整版本: about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书