分享

about云日志分析项目准备6-5-1-1:spark原理之spark主要模块及作用介绍

pig2 发表于 2017-2-28 16:50:59 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 1786
本帖最后由 pig2 于 2017-2-28 17:12 编辑

问题导读


1.spark主要包含哪几个模块?
2.spark各个模块作用是什么?
3.spark通信通过什么框架实现?







Spark的主要模块包括
  • 调度与任务分配
  • I/O模块
  • 通信控制模块
  • 容错模块
  • 以及Shuffle模块



调度与任务分配

Spark按照应用、作业、Stage和Task几个层次分别进行调度,采用了经典的FIFO和FAIR等调度算法。

I/O模块
在Spark的I/O中,将数据以块为单位进行管理,需要处理的块可以存储在本机内存、磁盘或者集群中的其他机器中。

通信控制模块

集群中的通信对于命令和状态的传递极为重要,Spark通过AKKA框架进行集群消息通信。

容错模块

分布式系统中的容错十分重要,Spark通过Lineage(血统)和Checkpoint机制进行容错性保证。

Shuffle模块
最后介绍Spark中的Shuffle机制,虽然Spark也借鉴了MapReduce模型,但其对Shuffle机制进行了创新与优化

来自:spark中文

没找到任何评论,期待你打破沉寂

关闭

推荐上一条 /2 下一条