图结构可有效表示稀疏矩阵,因而图数据分析可用于实现大数据分析。对于Spark生态系统中的图处理系统GraphX,《Spark GraphX in Action》一书给出了详细的教程和典型用例,将教会读者如何使用GraphX和GraphFrames进行图分析。本文是Info对该书作者的访谈,内容包括图数据及分析技术、GraphX高效程序开发、图数据分析的趋势等。
如何定义图数据?
Michael Malak:就事论事,图结构看上去并非像股价图那样,而是边和点的集合。但这只是一种模糊的数学抽象。更具体地说,在书的第一章中我们将真实世界中的图划分为五类:网络、树、类RDBMS结构、稀疏矩阵以及其它杂七杂八的结构。
Robin East:传统的数据分析方法侧重于事物本身,即实体,例如银行交易、资产注册等等。而图数据不仅关注事务,还关注事物之间的联系。例如,如果有一个呼叫记录告诉我张三曾打电话给李四,这样就可以将张三和李四关联起来。这种关联关系提供了与两者相关的有价值信息,而这样的信息是不可能仅从两者单纯的个体数据中获取的。
Michael Malak是《Spark GraphX In Action》一书的主要作者,他自2013年初以来,已在两家《财富》世界200强企业中开展了Spark解决方案实施。在企业能采购到具有适合功能的商业产品之间,他可以做编程实现。
Robin East曾作为大型企业顾问工作超过15年,现在是Worldpay公司的数据科学家。