about云系列spark入门5：MLlib 介绍-Spark-About云-梭伦科技

pig2 发表于 2015-7-9 19:49:18

about云系列spark入门5：MLlib 介绍

易于使用

使用Java, Scala 和 Python.

MLlib 适合 Spark's APIs 于使用PythonNumPy 交互（(开始于Spark 0.9).）
你可以使用任何hadoop数据源(HDFS, HBase, 和本地文件)

points = spark.textFile("hdfs://...")
.map(parsePoint)

model = KMeans.train(points, k=10)

使用python调用MLlib

性能

高质量算法，比mapreduce快100倍

spark擅长迭代运算，使MLlib 运行更快，与此同时，我们关心算法性能，MLlib 包含高质量算法-杠杆迭代，比近似一次使用mapreduce得到更好的结果

容易部署

运行在已有的hadoop集群

如果你使用的hadoop2集群，你可以直接运行spark和MLlib 。其它的你可以容易的运行 standalone 和EC2 或则Mesos.

你可以从 HDFS, HBase, 或则其它 Hadoop数据源读取数据

页: [1]

About云-梭伦科技's Archiver

about云系列spark入门5：MLlib 介绍