本帖最后由 aurae 于 2016-5-12 13:46 编辑 有3个问题要请教一下: 1.每行数据为啥是3个数,比如第一行“1.0 2.1 3.8”,为什么是三个数字呢,可以是一个数字吗? 2.mlib提供的接口是KMeans.train(parsedData,numClusters,numIterations),这个parsedData必须是个vector。这个vector也必须是三列吗? 3.我想使用这个KMeans.train运用到我实际业务中。我的数据每行是“id,value”,我想根据value字段进行kmeans聚类,然后计算出每个id属于哪个分类,value其实就是一个数值,是否可以使用KMeans.train? val parsedData = data.map(s => Vectors.dense( s.split('\u0001').map(_.toDouble) ) )我的这个代码要怎么改,可以使parsedData是第二列value的集合呢? 谢谢! |
thank you very much |