About云-梭伦科技»专题 › 技术学习(版主发帖区) › 大数据学习 › Spark › Spark MLBase分布式机器学习系统入门：以MLlib实现Kmean ...

Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法

查看数: 121954 | 评论数: 3 | 收藏 2

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

sunshine_junge

发布时间: 2014-12-25 20:21

正文摘要:

本帖最后由 sunshine_junge 于 2014-12-25 20:21 编辑问题导读： 1.什么是MLBase? 2.MLbase机器学习算法的流程? 3.Scala实现KMeans算法? 1.什么是MLBase MLBase是Spark生态圈的一部分 ...

aurae 发表于 2016-5-12 13:45:42

本帖最后由 aurae 于 2016-5-12 13:46 编辑

有3个问题要请教一下：
1.每行数据为啥是3个数，比如第一行“1.0 2.1 3.8”，为什么是三个数字呢，可以是一个数字吗？
2.mlib提供的接口是KMeans.train(parsedData,numClusters,numIterations)，这个parsedData必须是个vector。这个vector也必须是三列吗？
3.我想使用这个KMeans.train运用到我实际业务中。我的数据每行是“id，value”，我想根据value字段进行kmeans聚类，然后计算出每个id属于哪个分类，value其实就是一个数值，是否可以使用KMeans.train？
val parsedData = data.map(s => Vectors.dense(
s.split('\u0001').map(_.toDouble)
)
)我的这个代码要怎么改，可以使parsedData是第二列value的集合呢？

谢谢！

355815741 发表于 2014-12-26 09:55:24

hbu126 发表于 2014-12-26 09:39:47

thank you very much

图文精华

Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法

正文摘要:

回复

推荐 /2