Spark学习总结---入门

描述
ppt
61页

简介

Spark是一个高效的分布式计算系统，发源于美国加州大学伯克利分校AMPLab的集群计算平台。Spark立足于内存计算，相比Hadoop MapReduce，Spark在性能上要高100倍，而且Spark提供了比Hadoop更上层的API，同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。

Spark基于map reduce 算法模式实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS

目前Spark在全球已有广泛的应用，其中包括阿里巴巴、Cloudera、Databricks、IBM、Intel、雅虎等。

Spark自2013年6月进入Apache的孵化器以来，已经有来自25个组织的120多位开发者参与贡献。

链接：http://pan.baidu.com/s/1hrTOiv6 密码：

游客，如果您要查看本帖隐藏内容请回复