分享

mahout测试时出现问题

mahout 测试时总出现这个问题,求-C参数详解谢谢,以及解决问题办法。
QQ截图20150610111427.png

已有(7)人评论

跳转到指定楼层
Alkaloid0515 发表于 2015-6-10 12:15:10
楼主测试用的什么命令,大体介绍下,这样简单的描述,很容易造成误解。
回复

使用道具 举报

leo_1989 发表于 2015-6-10 14:49:05
  public static Path buildClusters(Configuration conf, Path input, Path clustersIn, Path output,
      DistanceMeasure measure, int maxIterations, String delta, boolean runSequential) throws IOException,
      InterruptedException, ClassNotFoundException {
   
    double convergenceDelta = Double.parseDouble(delta);
    //从output/clusters-0/part-randomSeed文件里读出Cluster数据,放入到clusters变量中。
    List<Cluster> clusters = Lists.newArrayList();
    KMeansUtil.configureWithClusterInfo(conf, clustersIn, clusters);
   
    if (clusters.isEmpty()) {
      throw new IllegalStateException("No input clusters found in " + clustersIn + ". Check your -c argument.");
    }
    //把聚类策略(控制收敛程度)写进output/clusters-0/_policy文件中
    //同时,每个簇cluster在output/clusters-0/下对应生成part-000xx文件
    Path priorClustersPath = new Path(output, Cluster.INITIAL_CLUSTERS_DIR);
    ClusteringPolicy policy = new KMeansClusteringPolicy(convergenceDelta);
    ClusterClassifier prior = new ClusterClassifier(clusters, policy);
    prior.writeToSeqFiles(priorClustersPath);
    //开始迭代maxIterations次执行Map/Reduce
    if (runSequential) {
      ClusterIterator.iterateSeq(conf, input, priorClustersPath, output, maxIterations);
    } else {
      ClusterIterator.iterateMR(conf, input, priorClustersPath, output, maxIterations);
    }
    return output;
  }

从上面代码中,可以得出    //从output/clusters-0/part-randomSeed文件里读出Cluster数据,放入到clusters变量中。
这个路径下从output/clusters-0/part-randomSeed可能没有文件,楼主检查下
回复

使用道具 举报

Mr.longlong 发表于 2015-6-10 15:51:10
Alkaloid0515 发表于 2015-6-10 12:15
楼主测试用的什么命令,大体介绍下,这样简单的描述,很容易造成误解。

参考的是   http://f.dataguru.cn/thread-239077-1-1.html  的步骤来做测试。数据文件是synthetic_control.data

具体执行命令是bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

回复

使用道具 举报

Mr.longlong 发表于 2015-6-10 16:04:51
leo_1989 发表于 2015-6-10 14:49
public static Path buildClusters(Configuration conf, Path input, Path clustersIn, Path output,
   ...

QQ截图20150610155141.png 2.png 22.png 33.png

有part-randomseed 文件 路径是output/random-seeds/part-randomSeed

回复

使用道具 举报

Mr.longlong 发表于 2015-6-10 16:06:26
Alkaloid0515 发表于 2015-6-10 12:15
楼主测试用的什么命令,大体介绍下,这样简单的描述,很容易造成误解。

bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
测试数据采用的是synthetic_control.data
回复

使用道具 举报

s060403072 发表于 2015-6-10 18:46:26
Mr.longlong 发表于 2015-6-10 16:06
bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
测试数据采用的是[ ...

检测下数据本身是否有问题
回复

使用道具 举报

Mr.longlong 发表于 2015-6-10 21:07:03
s060403072 发表于 2015-6-10 18:46
检测下数据本身是否有问题

的确是数据本身的问题,现在问题解决了,谢谢!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条