同样,MLib提供了一组用于创建Spark中的机器学习的模型和算法,GraphX是一个旨在帮助我们使用图论的语言和工具来分析各种网络的Spark库。因为GraphX建立在Spark之上,所以它继承了Spark的可扩展性,这意味着它能够对分布在多台机器上的超大型图进行分析。GraphX还集成了Spark平台的其余部分,正如我们将看到的,这使得数据科学家可以很容易地从写数据并行ETL例程到RDDs,从图形执行图形并行算法,分析和总结图形计算的输出。以一种数据的方式再次流行。由于其无缝的方式,GraphX允许将图形样式处理引入到分析工作流中,使其变得如此强大。
Graphx是基于两个专门的实现图形优化的RDD。VordTrdD[VD]是RDD[(VordTeX,VD)]的一种专门实现,其中VordType类型是一个Long的实例,对于每个顶点都是必需的,而VD可以是与顶点相关联的任何其他类型的数据,并且被称为顶点属性。EdGDDD [ED]是RDD[Edge[ED] ]的一种专门实现,其中Edge是一个包含两个顶点id和ED类型的边属性的case类。VertexRDD和EdgeRDD都在数据的每个分区内都有内部索引,其设计用于促进快速连接和属性更新。给定一个VertexRDD和一个关联的EdgeRDD,我们可以创建一个图类的实例,它包含许多有效地执行图形计算的方法。
创建图的第一个要求是有一个Long类型的值,它可以用作图中每个顶点的标识符。这对于我们构建共现网络来说是个问题,因为我们所有的主题都被识别为字符串。我们需要一种方法来生成一个独特的64位值,它可以与每个主题字符串相关联,并且理想地,我们希望以分布式的方式来完成它,这样它就可以在所有的数据中快速完成。
我们可以使用的一个选项是使用内置的hassCode方法,它将为任何给定的Scala对象生成32位整数。对于图中只有13000个顶点的问题,hashCode可能会起作用。但是对于有数百万或数千万个顶点的图表,hashCode冲突的概率可能是高得令人无法接受的。出于这个原因,我们将使用谷歌Guava库中的哈希库来使用MD5哈希算法为每个主题创建唯一的64位标识符:
[mw_shl_code=scala,true]import com.google.common.hash.Hashing
def hashId(str: String) = {
Hashing.md5().hashString(str).asLong()
}[/mw_shl_code]
我们可以将这个哈希函数应用到我们的MEDLINE数据,以便生成RDD[(long,string)],这将是我们共现图中顶点集的基础。我们还可以做一个简单的验证检查,以确保哈希值对于每个主题都是唯一的:
[mw_shl_code=scala,true]val vertices = topics.map(topic => (hashId(topic), topic))
val uniqueHashes = vertices.map(_._1).countByValue()
val uniqueTopics = vertices.map(_._2).countByValue()
uniqueHashes.size == uniqueTopics.size[/mw_shl_code]
我们将从最后一节中创建的共现计数生成图的边,使用哈希函数将每个主题名称映射到其对应的顶点ID。一个好习惯是当生成边时要先确保左侧顶点(Graphx称之为src)小于右侧顶点ID(Graphx称之为dst)。虽然在Graphx库中的大多数算法都不假设src和dst之间的关系,但有一些是这样做的,所以实现这一模式是一个好主意,这样以后你就不用再考虑它了。
[mw_shl_code=scala,true]import org.apache.spark.graphx._
val edges = cooccurs.map(p => {
val (topics, cnt) = p
val ids = topics.map(hashId).sorted
Edge(ids(0), ids(1), cnt)
})[/mw_shl_code]
既然我们既有顶点又有边,我们可以创建我们的图形实例,并将它标记为缓存,这样我们就可以保持它来进行后续处理:
[mw_shl_code=scala,true]val topicGraph = Graph(vertices, edges)
topicGraph.cache()[/mw_shl_code]
我们用来构造图形实例的顶点和边参数是正则RDDs——我们甚至没有复制顶点中的条目,因此每个主题只有一个实例。幸运的是,图形API为我们做了这件事,将我们传递的RDDS转换为VertexDD和EdgeRDD,从而顶点计数现在是唯一的:
[mw_shl_code=scala,true]vertices.count()
...
280823
topicGraph.vertices.count()
...
13034[/mw_shl_code]
请注意,如果在给定的顶点对中存在EdgeRDD的重复条目,则图形API不会重复它们:GraphX允许我们创建多个图,它们可以在同一对顶点之间具有多个具有不同值的边。这在图形中的顶点表示丰富的对象(如人或企业)的应用中可能是有用的,它们可能有许多不同类型的关系(即朋友、家庭成员、客户、伙伴等),它也允许我们将边缘视为定向的或不定向,这取决于上下文。