about云系列spark入门6:GraphX 介绍
GraphX 是 图 和 图并行计算的 Apache Spark's API
灵活性
图与集合无缝结合
图结合ETL,探索性分析,迭代图计算。你可以看到相同的数据,在图和集合中。
使用RDDtransform 和 join 图,使用 Pregel API 编写自定义迭代图算法
graph = Graph(vertices, edges)
messages = spark.textFile("hdfs://...")
graph2 = graph.joinVertices(messages) {
(id, vertex, msg) => ...
}
速度
在性能上比专业的图片处理系统还快,同时保持了spark的灵活性,故障容错和易于使用
算法
选择一个图形算法库
除了高度灵活的API,GraphX还有各种图形算法。
[*]PageRank
[*]Connected components
[*]Label propagation
[*]SVD++
[*]Strongly connected components
[*]Triangle count
赞!
页:
[1]