pig2 发表于 2014-7-12 23:39:33

Spark1.0.0 学习路线指导

本帖最后由 pig2 于 2014-7-13 00:45 编辑

问题导读
1.什么是spark?
2.spark编程模型是什么?
3.spark运维需要具有什么知识?
4.spark如何监控?
5.如何搭建开发spark?

static/image/hrline/4.gif


2014-05-30 Spark1.0.0 Relaease 经过11次RC后终于发布,虽然还有不少bug,还是很令人振奋。作为一个骨灰级的老IT,经过很成一段时间的消沉,再次被点燃激情,决定近几年内投入Spark的队伍,去见证Spark的不断强大。在最初的阶段,将作为Spark的布道者,宣传和介绍Spark,最终将选择某一个方向,深入研究和编写代码。
      随着国家对软件安全的重视,{:soso_e102:},看看这几天股市中软件股的表现,可以预见,在今后很长一段时间内,开源软件将越来越受到重视。作为大数据处理平台的开源软件Spark,由于其一体化的解决方案、高效的代码编写速度、高速的计算能力,将不断在大数据阵营中脱颖而出。
      在本文中,所使用的软件有:
Spark 1.0.0

[*]官方下载地址:http://spark.apache.org/downloads.html

[*]其中Spark1.0.0 for hadoop2的直接下载地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz
[*]源代码的直接下载地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz
[*]自编译的部署包:百度盘 (pan.baidu.com) /s/1dDmqK4h#dir/path=%2Fdeploy

[*]spark-1.0.0-bin-2.2.0.tgz是基于hadoop2.2.0的安装部署包
[*]spark-1.0.0-techyon-bin-2.2.0.tgz是基于hadoop2.2.0和techyon0.41的安装部署包
[*]spark-assembly-1.0.0-hadoop2.2.0.jar是基于hadoop2.2.0的Spark1.0.0应用程序开发包
Hadoop 2.20
Java 7UP21
Maven 3.05
Scala 2.10.4


      本线路分成6个部分Spark内存计算框架,逐步完善整体。文中涉及的实验和代码都是基于Spark1.0.0开发环境快速搭建一文中实验环境。



1:预览篇
为什么要学习Spark?

Spark1.0.0 的新特性

Spark1.0.0 生态圈一览

2:原理篇
Spark1.0.0 运行架构基本概念


[*]RDD 细解

[*]Spark RDD
[*]Spark Streaming RDD
[*]Spark SQL RDD
[*]MLLib RDD
[*]GraphX RDD
[*]DAG Scheduler 细解
[*]Task Scheduler 细解
[*]Spark1.0.0 Standalone 运行架构实例解析
[*]Spark1.0.0 on YARN 运行架构实例解析
[*]Spark1.0.0 on Mesos 运行原理解析

Spark1.0.0 编程模型

[*]Spark1.0.0 编程模型解析
Spark Streaming运行架构基本概念

3:运维篇
部署篇

[*]Spark1.0.0 源码编译和部署包生成
[*]Spark1.0.0 on YARN 模式部署
[*]Spark1.0.0 on Mesos 模式部署
[*]Spark1.0.0 Standalone模式部署
[*]Spark1.0.0 Standalone HA实现
配置篇

[*]Spark1.0.0属性配置
[*]Spark1.0.0环境变量配置
[*]Spark1.0.0日志配置
[*]Spark1.0.0 history server 配置
[*]Spark1.0.0 job server配置
运行篇

[*]Spark1.0.0应用提交工具spark-submit
[*]Spark1.0.0交互工具spark-shell




监控篇

[*]Spark1.0.0 UI监控解读
[*]用ganglia监控Spark1.0.0

优化篇

[*]Spark1.0.0 的一些小经验
[*]Spark1.0.0 性能调优


4:Spark生态环境
Spark1.0.0 生态环境


Spark SQL 简介
Spark MLlib 简介
Spark GraphX 简介
BlinkDB 简介
SparkR 简介
相关系统比较
Apache Hadoop MapReduce
Apache Tez
Storm


5:开发篇
Spark1.0.0 开发环境快速搭建

Spark1.0.0 多语言编程
Spark1.0.0 多语言编程之Scala实现
Spark1.0.0 多语言编程之Python实现
Spark1.0.0 应用


Spark1.0.0 和 Hbase
Spark1.0.0 和 RDBMS
SparkStreaming 和 flume
Spark SQL和hive
Spark1.0.0 案例


历史数据和实时数据分析
欺诈检测
推荐系统

6:源码篇
Spark1.0.0 源码研读环境搭建
一张图看懂Spark源码
Spark1.0.0内核解读
spark-submit 源码分析
RDD 解读
DAG Schedule 解读
Task Scheduler 解读
Spark AKKA 解读
Spark log4j 解读

clove 发表于 2014-7-14 10:38:18

受教!!~请问,上面有很多内容 没有超链接,啥时候能出?还是在别的地方?

howtodown 发表于 2014-7-29 19:41:30

clove 发表于 2014-7-14 10:38
受教!!~请问,上面有很多内容 没有超链接,啥时候能出?还是在别的地方?

你可以根据这个线路,到网上搜一些这里面提到的内容。
后期版主可能会补上

zhujun182104906 发表于 2014-12-17 16:17:33

感觉老牛逼了

stone_nono 发表于 2014-12-18 14:52:33

好贴啊。。。。。。。。。。。。。

stone_nono 发表于 2014-12-18 16:26:56

灌灌灌灌灌。。。。

Victor-Shy 发表于 2014-12-25 11:00:32

想问下,使用spark一定要先学期Scala吗,,

liusiping 发表于 2014-12-25 12:17:55

大赞楼主 学习中

admln 发表于 2015-1-12 10:10:38

文中思维导图中有文字说明吗?

cheney 发表于 2015-1-14 15:45:11

大赞楼主 学习中
页: [1] 2
查看完整版本: Spark1.0.0 学习路线指导