分享

about云系列spark入门5:MLlib 介绍




易于使用

使用Java, Scala 和 Python.

MLlib 适合 Spark's APIs 于使用Python  NumPy 交互((开始于Spark 0.9).)
你可以使用任何hadoop数据源(HDFS, HBase, 和 本地文件)

[mw_shl_code=python,true]points = spark.textFile("hdfs://...")
              .map(parsePoint)

model = KMeans.train(points, k=10)[/mw_shl_code]

使用python调用MLlib

性能

高质量算法,比mapreduce快100倍

spark擅长迭代运算,使MLlib 运行更快,与此同时,我们关心算法性能,MLlib 包含高质量算法-杠杆迭代,比近似一次使用mapreduce得到更好的结果



logistic-regression.png

容易部署

运行在已有的hadoop集群

如果你使用的hadoop2集群,你可以直接运行spark和MLlib 。其它的你可以容易的运行 standalone 和  EC2 或则Mesos.

你可以从 HDFS, HBase, 或则其它 Hadoop数据源读取数据







没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条