GraphX 是 图 和 图并行计算的 Apache Spark's API
灵活性
图与集合无缝结合
图结合ETL,探索性分析,迭代图计算。你可以看到相同的数据,在图和集合中。
使用RDD transform 和 join 图,使用 Pregel API 编写自定义迭代图算法
[mw_shl_code=scala,true]graph = Graph(vertices, edges)
messages = spark.textFile("hdfs://...")
graph2 = graph.joinVertices(messages) {
(id, vertex, msg) => ...
}[/mw_shl_code]
速度
在性能上比专业的图片处理系统还快,同时保持了spark的灵活性,故障容错和易于使用
算法
选择一个图形算法库
除了高度灵活的API,GraphX还有各种图形算法。
- PageRank
- Connected components
- Label propagation
- SVD++
- Strongly connected components
- Triangle count
|