日志

Spark核心开发者：性能超Hadoop百倍，算法实现仅有其1/10或1/100

已有 715 次阅读2014-12-5 16:48 | spark、Hadoop、shark

Spark是一个高效的分布式计算系统，相比Hadoop，它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API，同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。Shark类似“SQL on Spark”，是一个在Spark上数据仓库的实现，在兼容Hive的情况下，性能最高可以达到Hive的一百倍。

图：Spark的核心成员Reynold Xin

CSDN的专访整理如下：

CSDN：你好，辛湜。请首先介绍一下自己。

辛湜：我是UC Berkeley计算机系AMPLab的博士生，专注于数据库以及计算机系统的研究。AMPLab正在开发一个大数据的处理平台叫做Berkeley Data Analytics Stack (BDAS)，其中包括了Spark, Shark等项目。我是Shark的作者，也是Spark的核心成员。 （辛湜的学术主页）

在来Berkeley开始博士研究之前，我在Google和IBM工作过一段时间。在Google的时候主要做分布式系统开发，在IBM的时候做分布式的DB2内核的开发。之前我是在多伦多大学就读工程科学专业本科（Engineering Science，类似工程物理）。

CSDN：为什么会选择计算机专业？有什么特别的故事吗？

辛湜：从小学开始接触编程，当时觉得可以通过程序来控制电脑是一个十分神奇的事情。后来高中之后和一个朋友（网名“旅行”）合作，写了一个在国内当时比较有名的论坛程序FastBoard（以及后续版本Celeste）。我们还建立了可能是当时中国最大的PHP论坛。不过后来因为个人学业原因几个项目都没有再继续。

CSDN：为什么会选择伯克利大学？伯克利大学给你留下印象最深刻的东西是什么？

辛湜：大学是在加拿大多伦多大学读的。当时选择伯克利的原因主要有几个方面：

首先，我在选择学校的时候几个教授正要成立一个专门针对大数据的实验室（就是AMPLab），由几个来自不同学科的世界顶尖教授组成，比如说数据库（Michael Franklin），系统（Ion Stoica），机器学习（Michael Jordan），计算机网络（Scott Shenker），计算机架构（David Patterson, Randy Katz）等。世界上应该很难再找到一个类似的地方。

其次，Berkeley数据库和系统领域的研究项目基本上都会开源，对工业界有比较深的影响（BSD, PostgreSQL, Berkeley DB, TinyOS等等）。我个人希望我的研究想法可以超越论文的阶段，所以Berkeley这几点十分吸引我。

最后要说一点，就是Berkeley自然环境非常好，我第一次参观学校的时候住半山上，眺望了整个旧金山海湾和金门大桥。

CSDN：现在主要从事哪一方面的工作？

辛湜：我其实最主要是做Shark和Spark。在Tachyon方面我主要负责Shark和Tachyon的集成，让Shark可以原生的使用Tachyon里面“列”的概念。

Tachyon的主要作者HY也是一个中国人。如果有兴趣的话我可以介绍你们相互认识一下。（笔者正在准备采访HY，请关注后续的报道）

CSDN：在微博上看到你在很多地方做Spark和Shark的演讲，可以简单的介绍一下这两方面的内容吗？

辛湜：Spark是一个高效的分布式计算系统，相比Hadoop有以下几个优势：

性能可以比Hadoop高100倍。

Spark提供比Hadoop更上层的API，同样的算法在Spark中实现往往只有Hadoop的十分之一或者一百分之一的长度。

Shark类似“SQL on Spark”，是一个在Spark上数据仓库的实现，在兼容Hive的情况下，性能最高可以达到Hive的一百倍。

CSDN：Tachyon现在开源了吗？

辛湜：现在已经开源了。可以在Github上找到。

CSDN：你在微博上说“时代杂志2006及2011年度风云人物奖获得者”，这个我有些疑惑？

辛湜：那是个玩笑， 2006年的时代杂志年度风云人物是“你”，包括了网络上的每一个人。2011年的年度风云人物是所有参与了反华尔街示威抗议的人。2011年我在示威场所观察了三个小时，当时在抗议加州政府对教育经费的削减。

CSDN：了解知道国内的“云计算大会”吗？CSDN已经举办了五届，希望你有机会来参加，也非常希望你能来云计算大会做演讲嘉宾，可以把更多的科技信息分享给大家。

辛湜：听过。有机会的话我也希望可以在会议上给大家介绍一下Berkeley开发的一些项目以及这些项目在工业界的应用。