分享

基于Hadoop的社交网络的分析,Hadoop社交分析




昨天终于hadoop的项目验收完成了,终于可以松一口气了,总体还是比较满意的。
首先说一下项目流程,用mapreduce对数据进行预处理,然后用mahout中的聚类算法(kmeans)对数据进行处理,最后用peoplerank对数据进行处理。
根据老师交给我们的数据,包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接
http://snap.stanford.edu/data/egonets-Gplus.html(Google+)
http://snap.stanford.edu/data/egonets-Twitter.html(Twitter)
这里面的Google的人数是大概是100000多,相互之间的映射关系(A->B,就是A关注B,或者A是B的好友)有20W+,Twitter的人数大概是80000多,相互之间的映射关系也有20W+。
对下面的图片做一些解释,横坐标代表拥有好友的数量,纵坐标为拥有该好友数的用户数。这样的分布是符合网络的无标度性。
1.png
2.png

我是在本地上实现分布式的,在我的机子上开启了两个虚拟机,和使用了其他两个同学的电脑。

3.png

然后我们的性能是用ganglia进行检测的,ganglia的安装以及使用我已在之前的一篇博文中已经说过。

4.png


这只是其中一张性能分析的图片,估计本地上配置除了问题,所以才导致,master做了所有的工作。
如果有想要程序的朋友,可以在下面留言,我会写出全部的过程,和代码。


欢迎加入about云群9037177932227315139327136 ,云计算爱好者群,亦可关注about云腾讯认证空间||关注本站微信

已有(6)人评论

跳转到指定楼层
lanxing125 发表于 2015-5-27 00:20:18
非常需要,求代码。正好也在做相关的工作。非常感谢。
回复

使用道具 举报

Minimumy 发表于 2015-5-27 09:12:28
需要需要,希望楼主分享一下。
回复

使用道具 举报

wcg 发表于 2015-5-27 11:24:52
需要需要,希望楼主分享一下,正在学习中
回复

使用道具 举报

glqg 发表于 2015-5-27 11:42:48
楼主是否可以发一份给我吧,非常感谢了
回复

使用道具 举报

NIITYZU 发表于 2015-5-27 17:17:40
楼主共享一下代码给我们学习学习吧
回复

使用道具 举报

tang 发表于 2015-5-30 20:02:35
非常需要,求楼主代码,正在做相关事情,急求代码和教程,不甚感激
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条