搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据扩展学习
›
Mahout
›
介绍解说
›
mahout入门学习
0
0
0
分享
mahout入门学习
redhat1986
2015-1-26 17:05:14
发表于
介绍解说
[显示全部楼层]
阅读模式
关闭右栏
0
14865
About云VIP帮助找工作和提升
因为要用到云计算下的数据挖掘,所以就简单看了一下mahout配置,mahout是一个基于Map/Reduce的机器学习算法库,运行在hadoop集群上
废话不多说,下面看配置过程
1.到mahout官网上下载mahout-distribution-0.4.tar.gz,这个是已经编译好的包,如果下的是源码包,则需要安装maven来编译
2.前面已经搭过hadoop,这里不再说,下面设置环境变量,sudo vi /etc/profile(关于ubuntu环境变量,请看
参考
)
export HADOOP_HOME=/home/guang/Desktop/tools/hadoop-0.20.2
export HADOOP_CONF_DIR=/home/guang/Desktop/tools/hadoop-0.20.2/conf
export MAHOUT_HOME=/home/guang/Desktop/tools/mahout-distribution-0.4
export PATH=$HADOOP_HOME/bin:$MAHOUT_HOME/bin:$PATH
3.启动hadoop,也可以用伪分布式来测试
4.mahout --help ##检查Mahout是否安装完好,看是否列出了一些算法
5.下载数据集synthetic_control.data。Download it
here
.
6.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata,因为mahout它会自动到hdfs中去寻找这个目录)
$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put /home/test/synthetic_control.data testdata
7.运行kmeans算法
hadoop jar mahout-examples-0.4-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
这里会运行几分钟,耐心等待。
8.查看运行结果。依次运行下列命令:
$HADOOP_HOME/bin/hadoop fs -lsr output
$HADOOP_HOME/bin/hadoop fs -get output $MAHOUT_HOME/result
$cd MAHOUT_HOME/examples/result
$ls
如果看到以下结果,那么算法运行成功,你的安装也就成功了:
clusteredPoints clusters-0 clusters-1 clusters-2...... clusters-10 data
看网上的结果最后是8个clusters文件夹,都是默认没有指定K值(可以指定聚成K类)让其聚类的啊,数据集也是一样的啊,为什么结果不一样,不知道是什么问题?我的在运行过程中,没见报错啊,可以清楚看到每个迭代的MapReduce过程。估计是版本问题,那个mahout用的是0.3版,我用的是0.4版。有知道正确原因的,还请留言赐教!
2011-8-1答:根据原数据点和上一次迭代(或初始聚类)的聚类中心计算本次迭代的聚类中心,输出到clusters-N目录下,mahout_in_action这本书中也写道,clusters-N目录是每次迭代产生的目录,看源码后,这个迭代次数设置的是10次
后面具体看看kmeans算法,看是如何结合MapReduce聚类的,然后看看基于mahout的推荐引擎
参考资料:
1.
http://wenku.baidu.com/view/dbd15bd276a20029bd642d55.html
mahout的安装图文版
2.
http://blog.csdn.net/chjshan55/article/details/5923646
3.
https://cwiki.apache.org/confluence/display/MAHOUT/Clustering+of+synthetic+control+data
4.
http://bbs.hadoopor.com/thread-983-1-1.html
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
没找到任何评论,期待你打破沉寂
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
热心会员
经常帮助其他会员答疑
发表新帖
redhat1986
高级会员
关注
30
主题
108
帖子
30
粉丝
TA的主题
求解:hive 遇到的问题
2017-7-19
javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSExceptio...
2017-3-27
Regionserver 退出异常记录
2016-11-1
hadoop集群启动
2016-3-6
HDFS的shell操作
2015-8-3
24小时热文
Flink CDC:新一代实时数据集成框架
蚂蚁面试就是不一样
如何高效学习
人情世故速查速用大全集
框架思维
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈