Spark MLBase分布式机器学习系统入门:以MLlib实现Kmeans聚类算法

查看数: 121954 | 评论数: 3 | 收藏 2
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2014-12-25 20:21

正文摘要:

本帖最后由 sunshine_junge 于 2014-12-25 20:21 编辑 问题导读: 1.什么是MLBase? 2.MLbase机器学习算法的流程? 3.Scala实现KMeans算法? 1.什么是MLBase MLBase是Spark生态圈的一部分 ...

回复

aurae 发表于 2016-5-12 13:45:42
本帖最后由 aurae 于 2016-5-12 13:46 编辑

有3个问题要请教一下:
1.每行数据为啥是3个数,比如第一行“1.0 2.1 3.8”,为什么是三个数字呢,可以是一个数字吗?
2.mlib提供的接口是KMeans.train(parsedData,numClusters,numIterations),这个parsedData必须是个vector。这个vector也必须是三列吗?
3.我想使用这个KMeans.train运用到我实际业务中。我的数据每行是“id,value”,我想根据value字段进行kmeans聚类,然后计算出每个id属于哪个分类,value其实就是一个数值,是否可以使用KMeans.train?
val parsedData = data.map(s => Vectors.dense(
    s.split('\u0001').map(_.toDouble)
  )
)我的这个代码要怎么改,可以使parsedData是第二列value的集合呢?

谢谢!

355815741 发表于 2014-12-26 09:55:24
hbu126 发表于 2014-12-26 09:39:47
thank you very much
关闭

推荐上一条 /2 下一条