分享

日志分析实战之清洗日志小实例7:查看样本数据,保存统计数据到文件

问题导读

1.如何从所有数据中,抽取样本查看?
2.如何保存结果到hdfs?
3.saveAsTextFile的作用是什么?





上一篇
日志分析实战之清洗日志小实例6:获取uri点击量排序并得到最高的url
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22928


查看示例数据
[mw_shl_code=scala,true]uriCounts.takeSample(false,5,10).foreach(println)[/mw_shl_code]

示例数据1.jpg

示例数据2:输出结果.jpg

说明
上面三个参数,
表示采样是否放回,true表示有放回的采样,false表示无放回采样;第二个参数num,表示返回的采样数据的个数,第三个参数是种子,这里只有10条数据,所以使用10.

保存数据
我们统计网站信息,那么该如何保存我们的数据。保存如下代码,spark默认保存到hdfs。对于路径写了两种方式,但是他们保存的路径则完全的不同。
[mw_shl_code=scala,true]uriCounts.saveAsTextFile("/UriHitCount")[/mw_shl_code]
保存结果.jpg

上面是保存在了根路径,在hdfs上面查看
[mw_shl_code=scala,true]hdfs dfs -cat /UriHitCount/part-00000[/mw_shl_code]
[mw_shl_code=scala,true]hdfs dfs -cat /UriHitCount/part-00001[/mw_shl_code]


hdfs查看.jpg

[mw_shl_code=scala,true]uriCounts.saveAsTextFile("UriHitCount")[/mw_shl_code]
保存.jpg


hdfs查看,则是在/user/用户名/下面查看
[mw_shl_code=bash,true]hdfs dfs -ls -R /user/aboutyun/[/mw_shl_code]

区别.jpg




同时,在我们保存的时候,使用的是saveAsTextFile,可能会误认为是文件,其实是文件夹。

相关文章:

日志分析实战之清洗日志小实例1:使用spark&Scala分析Apache日志
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22856

日志分析实战之清洗日志小实例2:导入日志清洗代码并打包
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22862


日志分析实战之清洗日志小实例3:如何在spark shell中导入自定义包
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22881



日志分析实战之清洗日志小实例4:统计网站相关信息
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22900


日志分析实战之清洗日志小实例5:实现获取不能访问url
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22911


日志分析实战之清洗日志小实例6:获取uri点击量排序并得到最高的url
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22928


日志分析实战之清洗日志小实例7:查看样本数据,保存统计数据到文件
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22953


链接:http://pan.baidu.com/s/1pKXn8Ob 密码:yndp


本帖被以下淘专辑推荐:

已有(1)人评论

跳转到指定楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条