Google 为了做网路社交关係的图型结构分析,开始针对图型结构探勘做相关的研究与发展,并在 2010 年发表了相关的论文 〈Pregel: A System for Large-Scale Graph Processing〉。
由于针对大型的图型结构做处理是非常复杂也具有挑战性的,尤其是网路的分散式处理让难度又提高了许多,因此,Pregel 的计算要比MapReduce 的计算要复杂许多,其主要是利用BSP(Bluk Synchronous Parallell)、PageRank、Bipartite Matching 等演算法来做计算的实践。而在论文中你也可以看到上述这些方法的实践。
Dremel:只要花几秒鐘时间就可以分析 PB 等级的数据
在 2010 年,Google 还同时发表了一篇关于 Dremel 的论文,内容叙述 Dremel 是一个利用 SQL-like Language 的互动式资料库系统,用来储存结构化资料。
Dremel 的特色是,以列储存为主,以减少 CPU 与磁碟的读取,进而达到快速读取局部资料的目的;将查询的任务切割成多个小任务,以达到平行处理的目的;支援 Nested 数据模型,但只提供唯读功能。
大数据的相关应用,需要的不只是 MapReduce
Google 并没有在提出 MapReduce 之后,就停止了查询技术的发展,他们不断地发展新的技术以补强 MapReduce 的不足之处,这对 Big Data 的发展是有益的。
毕竟,MapReduce 不是万能的,以目前的状况来说,还是有许多的问题尚待解决,不过,Google 所发展出来的技术,带领了许多其他自由软体的发展,像 Apache Drill、Apache Giraph 以及 Stanford’s GPS 等等,这或许是身为使用者的我们最乐于见到的发展。