易于使用
使用Java, Scala 和 Python.
MLlib 适合 Spark's APIs 于使用Python NumPy 交互((开始于Spark 0.9).)
你可以使用任何hadoop数据源(HDFS, HBase, 和 本地文件)
[mw_shl_code=python,true]points = spark.textFile("hdfs://...")
.map(parsePoint)
model = KMeans.train(points, k=10)[/mw_shl_code]
使用python调用MLlib
性能
高质量算法,比mapreduce快100倍
spark擅长迭代运算,使MLlib 运行更快,与此同时,我们关心算法性能,MLlib 包含高质量算法-杠杆迭代,比近似一次使用mapreduce得到更好的结果
容易部署
运行在已有的hadoop集群
如果你使用的hadoop2集群,你可以直接运行spark和MLlib 。其它的你可以容易的运行 standalone 和 EC2 或则Mesos.
你可以从 HDFS, HBase, 或则其它 Hadoop数据源读取数据
|