pig2 发表于 2014-7-14 10:14:25

about云分析discuz论坛apache日志hadoop大数据项目:需求分析说明书

about云分析discuz论坛 apache日志hadoop大数据项目 需求分析说明书




修改记录

版本号更改人/发布人审批人更改日期
V1.0.0About云About云2014-07-14






static/image/hrline/2.gif




一、项目实现目标:一、统计ip二、统计跳出率三、统计后台登陆ip四、统计搜索量及搜索词五、统计模块点击量六、空间访问量七、统计导航点击量:1.统计论坛社区2.统计图文阅读区3.统计导读4.统计博客5.统计排行榜6.统计分享7.统计群组8.统计广播9.统计微信


二、项目分析:
apache日志格式分析

(1)第一项信息是远程主机的地址,即它表明访问网站的究竟是谁。(2)日志记录的第二项是空白,用一个“-”占位符替代。(3)日记记录的第三项也是空白。这个位置用于记录浏览者进行身份验证时提供的名字。日志文件的大多数记录中这一项是空白的。(4)日志记录的第四项是请求的时间。(5)日志记录的第五项信息告诉我们服务器受到的是一个什么样的请求(6)日志的第六项信息室状态代码。它告诉我们请求是否成功,或者遇到了什么样的错误。大多数时候这项是200,它表示服务器已经成功的响应浏览器的请求,一切正常。(以2开头的状态码表示成功,以3开头的状态码表示由于各种不同的原因用户请求被重定向到了其他位置,以4开头的状态代码表示客户端存在某种错误,以5开头的状态代码表示服务器遇到了某个错误)。(7)日志记录的第七项表示发送客户端的总字节数。它告诉我们传输是否被打断(即该数值是否和文件的大小相同)(8)日志记录的第八项表示发送客户端的总字节数请求的url(9)日志记录的第九项表示使用者的浏览器
目标实现分析:一、统计ip对日志文件ip去重,统计ip数量

二、统计跳出率对于只出现一次ip进行统计

三、统计后台登陆ip及登录次数在请求url中过滤urlhttp://www.aboutyun.com/admin.php
四、统计搜索量及搜索词搜索量通过统计http://www.aboutyun.com/search.php实现,搜索词通过通过srchtxt获取
27.153.206.218 - - "GET /search.php?mod=forum&srchtxt=%c8%eb%c3%c5&formhash=2f13ed92&searchsubmit=true&source=hotsearchHTTP/1.0" 200 3080"http://www.aboutyun.com/search.php?mod=forum&srchtxt=%c8%eb%c3%c5&formhash=2f13ed92&searchsubmit=true&source=hotsearch""Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR2.0.50727)"

五、统计模块点击量模块特征forum浏览量http://www.aboutyun.com/forum-116-1.html产生结果中模块id与模块名称相对应

六、空间访问量(1)统计浏览量http://www.aboutyun.com/space-uid-61.html(2)统计不同uid
七、统计导航点击量:1.统计微信ip及浏览量
http://www.aboutyun.com/hux_wx-qr.html
2.统计图文阅读区ip及浏览量
统计/plugin.php?id=forum_indexhttp://www.aboutyun.com/plugin.php?id=forum_index
3.统计导读ip及浏览量http://www.aboutyun.com/forum.php?mod=guide
4.统计博客ip及浏览量http://www.aboutyun.com/home.php?mod=space&do=blog个人博客访问量http://www.aboutyun.com/blog-3779-326.html
5.统计排行榜ip及浏览量http://www.aboutyun.com/misc.php?mod=ranklist
6.统计分享ip及浏览量http://www.aboutyun.com/home.php?mod=space&do=share&view=all
7.统计群组ip及浏览量http://www.aboutyun.com/group.php群组访问量http://www.aboutyun.com/group-128-1.html

8.统计广播ip及浏览量我收听的:http://www.aboutyun.com/home.php?mod=follow&view=follow广播大厅:http://www.aboutyun.com/home.php?mod=follow&view=other





howtodown 发表于 2014-8-8 19:33:48

本帖最后由 howtodown 于 2014-8-15 17:10 编辑

kevin 发表于 2014-8-8 18:26
请问这个项目都可以参加吗
可以加这个qq群 371358502一起讨论

pig2 发表于 2014-8-8 19:05:08

kevin 发表于 2014-8-8 18:26
请问这个项目都可以参加吗

可以根据需求编程,写完之后,可以申请提交代码

ascentzhen 发表于 2014-7-18 21:48:21

很好的实例项目

kevin 发表于 2014-8-8 18:26:02

请问这个项目都可以参加吗

kevin 发表于 2014-8-15 11:52:25

howtodown 发表于 2014-8-8 19:33
可以加这个qq 2024562870一起讨论

确定有这个群,没有搜索到

howtodown 发表于 2014-8-15 17:10:58

kevin 发表于 2014-8-15 11:52
确定有这个群,没有搜索到

这个是qq 2024562870不是群

finder 发表于 2014-8-28 18:09:16

apache日志是怎么生成的呢?

pig2 发表于 2014-8-28 19:13:37

finder 发表于 2014-8-28 18:09
apache日志是怎么生成的呢?

使用apache的,它会自动记录的

finder 发表于 2014-8-28 22:14:57

pig2 发表于 2014-8-28 19:13
使用apache的,它会自动记录的

apache服务器自动生成的日志是吧
页: [1] 2 3 4
查看完整版本: about云分析discuz论坛apache日志hadoop大数据项目:需求分析说明书