问题导读
1.spark速度快的原因是什么?
2.spark有哪些组件?
3.spark可以使用哪些开发语言?
Apache Spark™ 是一个快速的通用的大数据处理工具
速度
运行程序,在内存中是mapredcue 100倍,磁盘中是mapreduce的10倍。
spark有一个DAG引擎,支持循环数据流和内存计算
使用简单
可以使用Java, Scala, Python, R语言编写spark程序,
SparkPython API版wordcount
[mw_shl_code=python,true]text_file = spark.textFile("hdfs://...")
text_file.flatMap(lambda line: line.split())
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a+b)[/mw_shl_code]
通用性强
Combine SQL, streaming, 和复杂分析.
spark包括:
Spark SQL, MLlib机器学习, GraphX, 和 Spark Streaming. 在同一个应用程序中,可以整合这些库
spark运行
可以运行在Hadoop, Mesos, 独立运行或则运行在云中。它可以访问多个数据源,包括HDFS, Cassandra, HBase, 和 S3.
##########################################
spark下载
地址:
http://spark.apache.org/downloads.html
spark组件
Spark SQL, 机器学习(MLlib), GraphX, 和 Spark Streaming. 第三方包
spark文档
http://spark.apache.org/documentation.html
spark例子
http://spark.apache.org/examples.html
后面陆续出相关内容
下一篇:
about云系列spark入门2:spark最新源码包、安装包、git源码、maven等下载介绍
|
|