pig2 发表于 2015-6-30 18:30:03

about云系列spark入门1:初步介绍及相关文档、安装包、例子、spark库等初步介绍


问题导读

1.spark速度快的原因是什么?
2.spark有哪些组件?
3.spark可以使用哪些开发语言?

static/image/hrline/4.gif




Apache Spark™ 是一个快速的通用的大数据处理工具


速度

运行程序,在内存中是mapredcue 100倍,磁盘中是mapreduce的10倍。

spark有一个DAG引擎,支持循环数据流和内存计算




使用简单


可以使用Java, Scala, Python, R语言编写spark程序,


SparkPython API版wordcount
text_file = spark.textFile("hdfs://...")

text_file.flatMap(lambda line: line.split())
    .map(lambda word: (word, 1))
    .reduceByKey(lambda a, b: a+b)

通用性强

Combine SQL, streaming, 和复杂分析.

spark包括:

Spark SQL, MLlib机器学习, GraphX, 和 Spark Streaming. 在同一个应用程序中,可以整合这些库





spark运行

可以运行在Hadoop, Mesos, 独立运行或则运行在云中。它可以访问多个数据源,包括HDFS, Cassandra, HBase, 和 S3.




##########################################

spark下载

地址:
http://spark.apache.org/downloads.html





spark组件


Spark SQL, 机器学习(MLlib), GraphX, 和 Spark Streaming. 第三方包

spark文档

http://spark.apache.org/documentation.html

spark例子

http://spark.apache.org/examples.html

后面陆续出相关内容



下一篇:

about云系列spark入门2:spark最新源码包、安装包、git源码、maven等下载介绍


levycui 发表于 2015-7-1 09:06:05

支持spark文章

不朽 发表于 2015-7-1 10:15:44

都是官方英文例子啊我多虑了

sun128837 发表于 2015-7-1 19:50:17

写的太简单了
页: [1]
查看完整版本: about云系列spark入门1:初步介绍及相关文档、安装包、例子、spark库等初步介绍