pig2 发表于 2015-7-9 23:17:49

about云系列spark入门6:GraphX 介绍



GraphX 是 图 和 图并行计算的 Apache Spark's API

灵活性

图与集合无缝结合

图结合ETL,探索性分析,迭代图计算。你可以看到相同的数据,在图和集合中。
使用RDDtransform 和 join 图,使用 Pregel API 编写自定义迭代图算法

graph = Graph(vertices, edges)
messages = spark.textFile("hdfs://...")
graph2 = graph.joinVertices(messages) {
(id, vertex, msg) => ...
}



速度

在性能上比专业的图片处理系统还快,同时保持了spark的灵活性,故障容错和易于使用



算法

选择一个图形算法库

除了高度灵活的API,GraphX还有各种图形算法。



[*]PageRank
[*]Connected components
[*]Label propagation
[*]SVD++
[*]Strongly connected components
[*]Triangle count






小南3707 发表于 2015-7-10 09:07:16

赞!            
页: [1]
查看完整版本: about云系列spark入门6:GraphX 介绍