分享

mahout之Kmeans结果一问

夏洛特猫 发表于 2015-5-14 11:29:07 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 11353
大家好,小白又来请教大家问题了。
问题是关于mahout运行Kmeans的,主要有2个疑问,希望熟悉机械学习的大神们能帮帮忙
mahout运行Kmeans的方式有两种:
第1种.bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
这种运行的input数据要求放在/user/root/下才可以,而且输入数据名称必须为testdata
第2种.mahout kmeans -i $input -c /user/wiki/reuters-kmeans-clusters -o $output  -dm org.apache.mahout.common.distance.CosineDistanceMeasure -x $X -k $K
疑问:
1.第一种运行方式如何改变输入,输出路径和Kmeans的K值和迭代次数
2.两种运行方法输出结果居然不一样
第一种的输出结果是:
/user/coder4/reuters-kmeans/_policy
/user/coder4/reuters-kmeans/clusteredPoints
/user/coder4/reuters-kmeans/clusters-0
/user/coder4/reuters-kmeans/clusters-1
/user/coder4/reuters-kmeans/clusters-2-final


而第二种的输出结果是:
/user/wiki/reuters-kmeans/clusters-0
/user/wiki/reuters-kmeans/clusters-1
/user/wiki/reuters-kmeans/clusters-1-final

第二种运行过程没有错误,但是为什么输出结果和第一个不一样,迭代次数和数据同步一样后也是如上的结果,这是什么原因。。。
再次感谢大家的帮助了

已有(4)人评论

跳转到指定楼层
bob007 发表于 2015-5-14 12:13:05
结果都是一样的,但是实现方式有所不同。
就如同
两个人写了两个程序,实现结果都是统计,但是统计输出的方式有所区别。
第一个我想这样输出
a 1
b 2
第二个我想这样输出
字段1 字段2
a          1
b          2
回复

使用道具 举报

夏洛特猫 发表于 2015-5-14 14:47:47
多谢多谢,但是第一种运行您,知道如何改变聚类中心和迭代次数吗
回复

使用道具 举报

linbowei 发表于 2015-6-23 18:00:31
1.第一种运行方式如何改变输入,输出路径和Kmeans的K值和迭代次数
答:这里一定要用testdata这个目录,输入路径和输出路径还有K值和迭代次数都在org.apache.mahout.clustering.syntheticcontrol.kmeans.Job这个源代码里面写死,编码好了。如果要改,只能修改源代码,重新编译源码就可以了。
回复

使用道具 举报

夏洛特猫 发表于 2015-6-24 09:00:59
linbowei 发表于 2015-6-23 18:00
1.第一种运行方式如何改变输入,输出路径和Kmeans的K值和迭代次数
答:这里一定要用testdata这个目录,输 ...

谢谢您的回复,最近又使用了下mahout 版本mahout-0.10.0 运行时候加-i -o 不知道为什么就有用了,就是可以规定输入输出文件的路径了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条