pig2 发表于 2015-7-9 19:49:18

about云系列spark入门5:MLlib 介绍




易于使用

使用Java, Scala 和 Python.

MLlib 适合 Spark's APIs 于使用PythonNumPy 交互((开始于Spark 0.9).)
你可以使用任何hadoop数据源(HDFS, HBase, 和 本地文件)

points = spark.textFile("hdfs://...")
            .map(parsePoint)

model = KMeans.train(points, k=10)

使用python调用MLlib

性能

高质量算法,比mapreduce快100倍

spark擅长迭代运算,使MLlib 运行更快,与此同时,我们关心算法性能,MLlib 包含高质量算法-杠杆迭代,比近似一次使用mapreduce得到更好的结果





容易部署

运行在已有的hadoop集群

如果你使用的hadoop2集群,你可以直接运行spark和MLlib 。其它的你可以容易的运行 standalone 和EC2 或则Mesos.

你可以从 HDFS, HBase, 或则其它 Hadoop数据源读取数据







页: [1]
查看完整版本: about云系列spark入门5:MLlib 介绍